亚洲欧美国产毛片在线,色婷婷小说,欧美成人精品三区综合a片

OpenAI新爆款Sora的熱度持續(xù)發(fā)酵，在科技圈的刷屏陣仗都快趕上正月初五迎財神了。

智東西2月17日報道，這兩天，OpenAI首款文生視頻大模型Sora以黑馬之姿占據(jù)AI領(lǐng)域話題中心，馬斯克、楊立昆、賈揚清、Jim Fan、謝賽寧、周鴻祎、李志飛等科技人物紛紛下場評論，一些視頻、影視、營銷從業(yè)者也關(guān)注起這個新工具，開始擔(dān)心自己的飯碗。

OpenAI CEO薩姆·阿爾特曼在社交平臺X上積極與網(wǎng)友互動，馬斯克感嘆“人類愿賭服輸”，360集團(tuán)創(chuàng)始人、董事長兼CEO周鴻祎預(yù)言“AGI實現(xiàn)將從10年縮短到1年”。身為競爭對手的AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela也被驚到發(fā)表感言。

技術(shù)大牛們則開動腦力，從有限資料中抽絲剝繭，推演Sora的技術(shù)配方。Meta首席AI科學(xué)家楊立昆稱，紐約大學(xué)助理教授謝賽寧作為一作的擴散Transformer論文是Sora的基礎(chǔ)。謝賽寧也積極發(fā)長文分析Sora基于DiT架構(gòu)、可能用到谷歌NaViT技術(shù)，推算Sora參數(shù)量約30億。

一些OpenAI技術(shù)人員還在持續(xù)放出更多用Sora生成的視頻作品，如海上自行車比賽、男人向巨型貓王鞠躬、鯊魚跳出海面嚇到在海灘的人……???

民間高手們同樣行動力驚人：有的將OpenAI展示的生成視頻示例的提示詞輸入到Midjourney、Pika、RunwayML、Make-A-Video等其他明星模型對比效果；有的把Sora和比它早幾個小時發(fā)布的谷歌最新力作Gemini 1.5 Pro玩起了聯(lián)動。

Sora的爆火，再度坐實了阿爾特曼“營銷大師”的稱號。

一些網(wǎng)友懷疑阿爾特曼是專挑谷歌發(fā)Gemini 1.5的時間亮出Sora，硬生生把手握100萬tokens技術(shù)突破的Gemini 1.5話題度殺到片甲不留，是一出用大型廣告秀吸引更多融資的高招。

而最新被曝出的消息，似乎印證了OpenAI對新融資的迫切。據(jù)外媒報道，隨著新一筆要約收購交易完成，OpenAI的估值或超過800億美元。

阿爾特曼宏大的7萬億美元芯片籌資計劃也亟待輸血，畢竟最近剛給他的小目標(biāo)再加1萬億美元，并收獲了馬斯克的評論。

這樣看來，利好的還是AI infra和芯片企業(yè)。

大佬們怎么看Sora？

不管是震驚Sora的強大，還是吐槽其生成視頻的破綻，都能收獲極高的關(guān)注度。大佬們也分為幾派，從不同角度對Sora進(jìn)行點評。

1. 吃瓜感慨派：時間不等人，甘拜AI下風(fēng)

代表之一是馬斯克，在社交平臺X上的各網(wǎng)友評論區(qū)活躍蹦跶，四處留下“人類愿賭服輸（gg humans）”“人類借助AI之力將創(chuàng)造出卓越作品”等只言片語。

AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela感慨后浪拍前浪，以前需要花費一年的進(jìn)展，變成了幾個月就能實現(xiàn)，又變成了幾天、幾小時。

出門問問創(chuàng)始人李志飛在朋友圈感嘆：“LLM ChatGPT是虛擬思維世界的模擬器，以LLM為基礎(chǔ)的視頻生成模型Sora是物理世界的模擬器，物理和虛擬世界都被建模和模擬了，到底什么是現(xiàn)實？”

2. 展望預(yù)言派：OpenAI還有武器，創(chuàng)企壓力倍增

周鴻祎發(fā)了一條長微博和一個視頻，預(yù)言Sora“可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆，但它不一定那么快擊敗TikTok，更可能成為TikTok的創(chuàng)作工具”，認(rèn)為OpenAI“手里的武器并沒有全拿出來”“中國跟美國的AI差距可能還在加大”“AGI不是10年20年的問題，可能一兩年很快就可以實現(xiàn)”。

美國舊金山早期投資人Zak Kukoff預(yù)測：一個不到5人的團(tuán)隊將在5年內(nèi)用文生視頻模型和非工會的勞動力。制作一部票房收入超過5000萬美元的電影。

GitHub Copilot主創(chuàng)Alex Graveley則替生成式AI創(chuàng)企們捏了把汗：“如果OpenAI打算繼續(xù)逐個行業(yè)地蠶食AI初創(chuàng)公司，他們應(yīng)該盡快上市。構(gòu)建一個只有500人受益的新經(jīng)濟是個糟糕的未來。”

前阿里副總裁、正在AI infra賽道創(chuàng)業(yè)的賈揚清，評價簡單粗暴：“真的非常牛。”他認(rèn)為“對標(biāo)OpenAI的公司有一波被其他大廠fomo（害怕錯過）收購的機會”“開源還需要一段時間才能catch up”，算法小廠“要不就算法上媲美OpenAI，要不就垂直領(lǐng)域深耕應(yīng)用，要不就開源”，并預(yù)言“infra的需求繼續(xù)會猛增”。

3. 上手體驗派：比較多個視頻生成模型，聯(lián)動Sora和Gemini 1.5

知名連續(xù)創(chuàng)業(yè)者Gabor Cselle在測試關(guān)于美麗東京白雪皚皚的提示詞后，得出的結(jié)論是Sora在長鏡頭上表現(xiàn)得更好。

Gabor Cselle還讓谷歌Gemini 1.5 Pro觀看并分析評論了OpenAI Sora制作的視頻。

Sora的原提示詞是：“美麗、白雪皚皚的東京市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天，在附近攤位上購物。絢麗的櫻花花瓣隨雪花在風(fēng)中飛舞。”

Gemini 1.5 Pro給出的評論是：“這段視頻拍攝的是日本一條下雪的街道，櫻花盛開。有一些不一致的地方表明視頻可能是AI生成的。首先，雪下得很大，但櫻花還在盛開，櫻花通常開在春天，那時天氣溫暖，沒有雪；其次，雪以一種很均勻的方式落下，這與現(xiàn)實生活中的雪通常不同；第三，盡管下著雪，視頻中的人沒有穿任何冬天的衣服。總的來說，這段視頻在視覺上很吸引人，但前后矛盾之處表明這不是真實場景。”

4. 技術(shù)分析派：Sora或有30億參數(shù)，基礎(chǔ)論文被扒?????

含金量最高的當(dāng)屬圍繞Sora核心技術(shù)的討論。

PyTorch創(chuàng)始人Soumith Chintala從視頻推測Sora是由游戲引擎驅(qū)動的，并為游戲引擎生成組件和參數(shù)。

英偉達(dá)高級研究科學(xué)家Jim Fan評價Sora是“視頻生成的GPT-3時刻”“數(shù)據(jù)驅(qū)動的物理引擎”，認(rèn)為它通過一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺”物理、長鏡頭推理和語義基礎(chǔ)等。

多倫多大學(xué)計算機科學(xué)AI助理教授Animesh Garg夸贊OpenAI做得好，評價Sora像是“模型質(zhì)量的飛躍，它不需要快速的工程來實現(xiàn)隨時間一致的RTX渲染質(zhì)量生成”。

紐約大學(xué)助理教授謝賽寧高贊Sora是“難以置信的、將重塑視頻生成社區(qū)”，并發(fā)表多篇推文進(jìn)行分析，推測Sora建立在擴散Transformer模型之上，整個Sora模型可能有30億個參數(shù)。

值得一提的是，Meta首席AI科學(xué)家楊立昆轉(zhuǎn)發(fā)評論稱他的前同事謝賽寧和他的前伯克利學(xué)生、現(xiàn)任OpenAI工程師的William Peebles前年合著的擴散Transformer論文，顯然是Sora的基礎(chǔ)。

論文地址：https://arxiv.org/abs/2307.06304

楊立昆還特意指出，這篇論文曾因“缺乏新穎性”而被計算機視覺學(xué)術(shù)頂會之一拒收。

下一章將附上大牛們更全面的技術(shù)分析。

每個視頻都能挑出錯，Sora

為什么還能這么火？

OpenAI在發(fā)布Sora的博客文章下方特意強調(diào)其展示的所有視頻示例均由Sora生成。比起OpenAI的承諾，更能證明Sora清白的是這些視頻中出現(xiàn)的各種生成式AI“靈魂錯誤”。

比如，隨著時間推移，有的人物、動物或物品會消失、變形或者生出分身；或者出現(xiàn)一些違背物理常識的鬧鬼畫面，像穿過籃筐的籃球、懸浮移動的椅子。

這些怪誕的鏡頭，說明Sora雖然能力驚人，但水平還不夠“封神”。這也給它的競品和擔(dān)心工作被取代的人類留下了進(jìn)化的余地。

畢竟，AI視頻生成已經(jīng)斷斷續(xù)續(xù)火了一年多，而當(dāng)前最晚出場的Sora，就算是錯漏百出，也已經(jīng)在時長、逼真度等方面甩開同行一條街。

主要視頻生成模型/技術(shù)對比（來源：東吳證券）

讓機器生成視頻，難點在于“逼真”。比如一個人在同一個視頻里的長焦和短焦鏡頭里外觀不會變化；隨著鏡頭轉(zhuǎn)動，站在山崖上的小狗應(yīng)該跟山崖保持一致的移動；咬一口面包，面包就會少一塊并出現(xiàn)牙印……這些邏輯對人來說似乎顯而易見，但AI模型很難領(lǐng)悟到前一幀和后一幀畫面之間的各種邏輯和關(guān)聯(lián)。

首先要強調(diào)下生成式AI模型跟傳統(tǒng)信息檢索的區(qū)別。傳統(tǒng)檢索是按圖索驥，從數(shù)據(jù)庫固定位置調(diào)取信息，準(zhǔn)確度高，但不具備舉一反三的能力。而生成式AI模型不會去記住數(shù)據(jù)本身，而是從大量數(shù)據(jù)中去學(xué)習(xí)和掌握生成語言、圖像或視頻的某種方法，產(chǎn)生難以解釋的“涌現(xiàn)”能力。

OpenAI在技術(shù)報告里總結(jié)了一些以前模型常用的視頻生成和建模方法，包括循環(huán)網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)、自回歸Transformer和擴散模型。它們只能生成固定尺寸、時長較短的視頻。

而Sora實現(xiàn)了將Transformer和擴散模型結(jié)合的創(chuàng)新，首先將不同類型的視覺數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的視覺數(shù)據(jù)表示（視覺patch），然后將原始視頻壓縮到一個低維潛在空間，并將視覺表示分解成時空patch（相當(dāng)于Transformer token），讓Sora在這個潛在空間里進(jìn)行訓(xùn)練并生成視頻。

接著做加噪去噪，輸入噪聲patch后Sora通過預(yù)測原始“干凈”patch來生成視頻。OpenAI發(fā)現(xiàn)訓(xùn)練計算量越大，樣本質(zhì)量就會越高，特別是經(jīng)過大規(guī)模訓(xùn)練后，Sora展現(xiàn)出模擬現(xiàn)實世界某些屬性的“涌現(xiàn)”能力。

這也是為啥OpenAI把視頻生成模型稱作“世界模擬器”，并總結(jié)說持續(xù)擴展視頻模型是一條模擬物理和數(shù)字世界的希望之路。

令技術(shù)大牛們興奮的焦點就在這個能力上。

擴散Transformer模型論文第一作者謝賽寧發(fā)表了多篇推文，分享對Sora技術(shù)報告的看法：

先看架構(gòu)，構(gòu)建于擴散Transformer（DiT）模型上，DiT=[VAE編碼器+ ViT + DDPM + VAE解碼器]。
其次是視頻壓縮網(wǎng)絡(luò)，看起來只是一個訓(xùn)練原始視頻數(shù)據(jù)的VAE（一個ConvNet），Token化可能在獲得良好的時間一致性方面發(fā)揮重要作用。

謝賽寧回顧說，在研究DiT項目時，他和Bill沒有創(chuàng)造“新穎性”，而是優(yōu)先考慮了簡單和可擴展性。

簡單意味著靈活。他認(rèn)為人們經(jīng)常忽略掉一件很酷的事，當(dāng)涉及到處理輸入數(shù)據(jù)時，如果讓模型方式更靈活。例如在MAE中，ViT幫助我們只處理可見patches，而忽略掩碼patches；類似的，Sora“可通過在適當(dāng)大小的網(wǎng)格中安排隨機初始化的patches來控制生成視頻的大小”，而UNet并不直接提供這種靈活性。

他猜測Sora可能還會使用谷歌的Patch n' Pack（NaViT），使DiT適應(yīng)各種分辨率/持續(xù)時間/寬高比。?

論文地址：arxiv.org/abs/2212.09748

可擴展性是DiT論文的核心主題。就每Flop的時鐘時間而言，優(yōu)化的DiT比UNet運行得快得多。更重要的是，Sora證明了Dil擴展定律不僅適用于圖像，也適用于視頻——Sora復(fù)制了在DiT中觀察到的視覺擴展行為。

謝賽寧推測在Sora報告中，第一個視頻的質(zhì)量相當(dāng)糟糕，懷疑它使用的是基本模型尺寸，并做了個粗略計算：DiT XL/2是B/2模型的5倍GFLOPs，所以最終的16X計算模型可能是DiT-XL模型大小的3倍，這意味著Sora可能有大約30億個參數(shù)——如果是真的，這不是一個不合理的模型大小。這可能表明，訓(xùn)練Sora模型可能不需要像人們預(yù)期的那樣多的GPU——預(yù)計會有非常快的迭代。

在他看來，關(guān)鍵的收獲來自“新興的模擬能力”部分。在Sora之前，我們并不清楚長期的一致性能否獨立出現(xiàn)，或者它是否需要復(fù)雜的主題驅(qū)動生成流水線，甚至是物理模擬器。OpenAl已經(jīng)證明，雖然不完美，但這些行為可以通過端到端訓(xùn)練來實現(xiàn)。但還有兩個要點尚未討論：

1. 訓(xùn)練數(shù)據(jù)：完全沒有談?wù)撚?xùn)練來源和構(gòu)建，這可能只是暗示數(shù)據(jù)可能是Sora成功的最關(guān)鍵因素。

2. （自回歸）長視頻生成：Sora的一個重大突破是能夠生成非常長的視頻。制作2秒視頻和1分鐘視頻的區(qū)別是巨大的。

在Sora中，這可能是通過允許自回歸采樣的聯(lián)合幀預(yù)測來實現(xiàn)的，但一個主要挑戰(zhàn)是如何解決誤差積累并保持質(zhì)量/一致性。一個非常長的（和雙向的）條件作用環(huán)境？或者擴大規(guī)模可以簡單地減輕這個問題？謝賽寧認(rèn)為這些技術(shù)細(xì)節(jié)可能非常重要，希望在未來能被揭開神秘面紗。

謝賽寧還不忘給自己團(tuán)隊的新DiT模型SiT打個廣告：具有完全相同的架構(gòu)，但提供了增強的性能和更快的收斂速度。對它在視頻生成上的表現(xiàn)也非常好奇。

Jim Fan認(rèn)為，Sora是一款數(shù)據(jù)驅(qū)動的物理模擬引擎，通過一些去噪和梯度計算來學(xué)習(xí)復(fù)雜的渲染、“直覺”物理、長遠(yuǎn)規(guī)劃推理和語義基礎(chǔ)。它直接輸入文本/圖像并輸出視頻像素，通過大量視頻、梯度下降，在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎，它不會在循環(huán)中顯式調(diào)用虛擬引擎5，但虛擬引擎5生成的（文本、視頻）有可能會作為合成數(shù)據(jù)添加到訓(xùn)練集中。

他對“Sora并不是在學(xué)習(xí)物理，它只是在操縱2D中的像素”觀點持反對意見，認(rèn)為這類似于說“GPT-4不學(xué)習(xí)編程，它只是采樣字符串”。

“為了生成可執(zhí)行的Python代碼，GPT-4必須在內(nèi)部學(xué)習(xí)某種形式的語法、語義和數(shù)據(jù)結(jié)構(gòu)。GPT-4不顯式存儲Python語法樹。非常類似的，Sora必須學(xué)習(xí)一些文生3D、3D轉(zhuǎn)換、光線追蹤渲染和物理規(guī)則的'隱式’形式，以便盡可能準(zhǔn)確地建模視頻像素。它必須學(xué)習(xí)游戲引擎的概念以滿足目標(biāo)。”Jim Fan寫道。

Jim Fan認(rèn)為，如果不考慮交互，虛擬引擎5是一個（非常復(fù)雜的）生成視頻像素的過程，Sora也是一個基于端到端Transformers的生成視頻像素的過程，它們在相同的抽象層次上，不同的是虛擬引擎5是人工制作的、精確的，而Sora純粹通過數(shù)據(jù)和“直覺”來學(xué)習(xí)。

在他看來，目前Sora對涌現(xiàn)物理的理解是脆弱的，遠(yuǎn)非完美，仍會產(chǎn)生嚴(yán)重、不符合常識的幻覺，還不能很好掌握物體間的相互作用。

目前Sora的訓(xùn)練數(shù)據(jù)源是業(yè)界普遍的關(guān)注重點，但OpenAI一如既往遵循“ClosedAI”原則，并沒有透露相關(guān)信息。

打開視頻創(chuàng)作便捷之門

或改變短視頻市場秩序

Sora向非專業(yè)人士打開了一扇創(chuàng)造虛擬世界的便捷之門，盡管它還不能被立即使用，但它劇透了未來先進(jìn)AI工具能帶來的新用途。

FutureHouseSF聯(lián)合創(chuàng)始人Andrew White認(rèn)為，或許Sora可以模擬《我的世界》這個游戲，甚至下一代游戲機將是Sora box，游戲?qū)⒁?-3段文字的形式發(fā)布。

當(dāng)然，不完美的Sora在其生成的48個視頻Demo中留了不少穿幫畫面，如果將這些鏡頭放到影視劇里或者作為精心制作的長視頻的素材，需要做很多修補工作。

不過對于那些原本無法估量預(yù)算的拍攝場景，或者是資源有限的獨立創(chuàng)作者，AI工具足以幫助節(jié)約相當(dāng)可觀的成本。

一位專業(yè)動畫師Owen Fern分享說，自己不擔(dān)心Sora的原因是動畫是一個迭代過程，客戶會對每一幀的細(xì)節(jié)提出修改意見，比如這一幀的表情要更可愛、那一幀人物的鼻子要打高光……人類可以一點點按需修改，而AI只能全部推倒重來。

如果用AI制作視頻的目的僅僅是“好玩”，那么用Sora生成一些不完美但吸睛的視頻，足夠在短視頻平臺上掀起新的流行與狂歡。

用AI制作創(chuàng)意視頻固然無可厚非。但設(shè)想一下，當(dāng)你被一些萌寵、萌娃視頻可愛到，當(dāng)你被獨具風(fēng)格的風(fēng)景或室內(nèi)設(shè)計驚艷到，然后得知這些其實是由AI生成的，會不會有種不舒服的感覺？

再試想，當(dāng)你訂閱的博主賬號經(jīng)常發(fā)一些漂亮或有趣的視頻，而這些視頻都是用AI制作的，運營這個賬號的幕后公司還擁有數(shù)千個應(yīng)用類似AI手段的網(wǎng)紅賬戶，流水線般吸走訂閱者的時間。

無論是游戲、專業(yè)視頻還是短視頻制作，只要放在公共平臺，至少有很多專業(yè)人士能來捕捉漏洞。但這類工具的另一重風(fēng)險，連OpenAI和谷歌都諱莫如深——人類想象力的黑暗面也是無限的，當(dāng)進(jìn)入尋常百姓家，AI工具造成的負(fù)面影響可能失控。

AI欺詐案件已經(jīng)越來越頻發(fā)。由于人們在日常生活中通常不會逐幀分辨視頻真?zhèn)危l(fā)以假亂真的AI視頻生成和深度偽造技術(shù)足以化為欺詐者和詆毀者手里的利刃，刺向毫無防備的人。

預(yù)計OpenAI會謹(jǐn)慎考慮

Sora對外開放時間

此前OpenAI花了大約半年來測試其大語言模型GPT-4。如果測試Sora需要差不多的時長，這個強大的視頻生成工具可能會在8月份開放。不過考慮到深偽技術(shù)帶給美國大選的負(fù)面影響，OpenAI估計會謹(jǐn)慎考慮正式公開Sora的時間。

在與谷歌Gemini 1.5 Pro相繼出場的輿論戰(zhàn)中，OpenAI Sora可以說是取得了碾壓式勝利。畢竟相比暴走一年多的大語言模型，還是“眼見為虛”的60秒視頻生成模型更有新鮮感和沖擊力。

但從實用性來看，風(fēng)頭更勝一籌的Sora只是展示了幾十個精選作品，離落地還有相當(dāng)?shù)木嚯x。而OpenAI的大語言模型大本營正在被對手偷塔——谷歌突破的100萬tokens大招，能夠給長文本問答、視頻理解帶來驚人的效率飛升，OpenAI必須盡快回?fù)簟?/p>

生成式AI工具已經(jīng)敲響了低水平繪畫、動畫、影視內(nèi)容創(chuàng)作者的喪鐘。就像蒸汽機、發(fā)電機的發(fā)明會解放生產(chǎn)力，也會淘汰掉大量舊生產(chǎn)線上的工人，AI同樣會頂替一些平凡的任務(wù)，淘汰掉一撥人，但最終將推動人類創(chuàng)新和創(chuàng)造力的進(jìn)化。

隨著各類生成式AI模型加速演進(jìn)，我們看到一個完全由文本構(gòu)建的整個世界，只是時間問題。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕