精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Sora爆火,大佬們怎么看?

OpenAI新爆款Sora的熱度持續(xù)發(fā)酵,在科技圈的刷屏陣仗都快趕上正月初五迎財神了。

智東西2月17日報道,這兩天,OpenAI首款文生視頻大模型Sora以黑馬之姿占據(jù)AI領(lǐng)域話題中心,馬斯克、楊立昆、賈揚清、Jim Fan、謝賽寧、周鴻祎、李志飛等科技人物紛紛下場評論,一些視頻、影視、營銷從業(yè)者也關(guān)注起這個新工具,開始擔(dān)心自己的飯碗。

OpenAI CEO薩姆·阿爾特曼在社交平臺X上積極與網(wǎng)友互動,馬斯克感嘆“人類愿賭服輸”,360集團(tuán)創(chuàng)始人、董事長兼CEO周鴻祎預(yù)言“AGI實現(xiàn)將從10年縮短到1年”。身為競爭對手的AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela也被驚到發(fā)表感言。

技術(shù)大牛們則開動腦力,從有限資料中抽絲剝繭,推演Sora的技術(shù)配方。Meta首席AI科學(xué)家楊立昆稱,紐約大學(xué)助理教授謝賽寧作為一作的擴散Transformer論文是Sora的基礎(chǔ)。謝賽寧也積極發(fā)長文分析Sora基于DiT架構(gòu)、可能用到谷歌NaViT技術(shù),推算Sora參數(shù)量約30億。

一些OpenAI技術(shù)人員還在持續(xù)放出更多用Sora生成的視頻作品,如海上自行車比賽、男人向巨型貓王鞠躬、鯊魚跳出海面嚇到在海灘的人……???

民間高手們同樣行動力驚人:有的將OpenAI展示的生成視頻示例的提示詞輸入到Midjourney、Pika、RunwayML、Make-A-Video等其他明星模型對比效果;有的把Sora和比它早幾個小時發(fā)布的谷歌最新力作Gemini 1.5 Pro玩起了聯(lián)動。

Sora的爆火,再度坐實了阿爾特曼“營銷大師”的稱號。

一些網(wǎng)友懷疑阿爾特曼是專挑谷歌發(fā)Gemini 1.5的時間亮出Sora,硬生生把手握100萬tokens技術(shù)突破的Gemini 1.5話題度殺到片甲不留,是一出用大型廣告秀吸引更多融資的高招。

而最新被曝出的消息,似乎印證了OpenAI對新融資的迫切。據(jù)外媒報道,隨著新一筆要約收購交易完成,OpenAI的估值或超過800億美元

阿爾特曼宏大的7萬億美元芯片籌資計劃也亟待輸血,畢竟最近剛給他的小目標(biāo)再加1萬億美元,并收獲了馬斯克的評論。

這樣看來,利好的還是AI infra和芯片企業(yè)。


 01 
大佬們怎么看Sora?

不管是震驚Sora的強大,還是吐槽其生成視頻的破綻,都能收獲極高的關(guān)注度。大佬們也分為幾派,從不同角度對Sora進(jìn)行點評。

1. 吃瓜感慨派:時間不等人,甘拜AI下風(fēng)

代表之一是馬斯克,在社交平臺X上的各網(wǎng)友評論區(qū)活躍蹦跶,四處留下“人類愿賭服輸(gg humans)”“人類借助AI之力將創(chuàng)造出卓越作品”等只言片語。

AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela感慨后浪拍前浪,以前需要花費一年的進(jìn)展,變成了幾個月就能實現(xiàn),又變成了幾天、幾小時。

出門問問創(chuàng)始人李志飛在朋友圈感嘆:“LLM ChatGPT是虛擬思維世界的模擬器,以LLM為基礎(chǔ)的視頻生成模型Sora是物理世界的模擬器,物理和虛擬世界都被建模和模擬了,到底什么是現(xiàn)實?

2. 展望預(yù)言派:OpenAI還有武器,創(chuàng)企壓力倍增

周鴻祎發(fā)了一條長微博和一個視頻,預(yù)言Sora“可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為TikTok的創(chuàng)作工具”,認(rèn)為OpenAI“手里的武器并沒有全拿出來”“中國跟美國的AI差距可能還在加大”“AGI不是10年20年的問題,可能一兩年很快就可以實現(xiàn)”。

美國舊金山早期投資人Zak Kukoff預(yù)測:一個不到5人的團(tuán)隊將在5年內(nèi)用文生視頻模型和非工會的勞動力。制作一部票房收入超過5000萬美元的電影。

GitHub Copilot主創(chuàng)Alex Graveley則替生成式AI創(chuàng)企們捏了把汗:“如果OpenAI打算繼續(xù)逐個行業(yè)地蠶食AI初創(chuàng)公司,他們應(yīng)該盡快上市。構(gòu)建一個只有500人受益的新經(jīng)濟是個糟糕的未來。”

前阿里副總裁、正在AI infra賽道創(chuàng)業(yè)的賈揚清,評價簡單粗暴:“真的非常牛。”他認(rèn)為“對標(biāo)OpenAI的公司有一波被其他大廠fomo(害怕錯過)收購的機會”“開源還需要一段時間才能catch up”,算法小廠“要不就算法上媲美OpenAI,要不就垂直領(lǐng)域深耕應(yīng)用,要不就開源”,并預(yù)言“infra的需求繼續(xù)會猛增”。

3. 上手體驗派:比較多個視頻生成模型,聯(lián)動Sora和Gemini 1.5

知名連續(xù)創(chuàng)業(yè)者Gabor Cselle在測試關(guān)于美麗東京白雪皚皚的提示詞后,得出的結(jié)論是Sora在長鏡頭上表現(xiàn)得更好。

Gabor Cselle還讓谷歌Gemini 1.5 Pro觀看并分析評論了OpenAI Sora制作的視頻。

Sora的原提示詞是:“美麗、白雪皚皚的東京市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近攤位上購物。絢麗的櫻花花瓣隨雪花在風(fēng)中飛舞。”

Gemini 1.5 Pro給出的評論是:“這段視頻拍攝的是日本一條下雪的街道,櫻花盛開。有一些不一致的地方表明視頻可能是AI生成的。首先,雪下得很大,但櫻花還在盛開,櫻花通常開在春天,那時天氣溫暖,沒有雪;其次,雪以一種很均勻的方式落下,這與現(xiàn)實生活中的雪通常不同;第三,盡管下著雪,視頻中的人沒有穿任何冬天的衣服。總的來說,這段視頻在視覺上很吸引人,但前后矛盾之處表明這不是真實場景。”

4. 技術(shù)分析派:Sora或有30億參數(shù),基礎(chǔ)論文被扒?????

含金量最高的當(dāng)屬圍繞Sora核心技術(shù)的討論。

PyTorch創(chuàng)始人Soumith Chintala從視頻推測Sora是由游戲引擎驅(qū)動的,并為游戲引擎生成組件和參數(shù)。

英偉達(dá)高級研究科學(xué)家Jim Fan評價Sora是“視頻生成的GPT-3時刻”“數(shù)據(jù)驅(qū)動的物理引擎”,認(rèn)為它通過一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺”物理、長鏡頭推理和語義基礎(chǔ)等。

多倫多大學(xué)計算機科學(xué)AI助理教授Animesh Garg夸贊OpenAI做得好,評價Sora像是“模型質(zhì)量的飛躍,它不需要快速的工程來實現(xiàn)隨時間一致的RTX渲染質(zhì)量生成”。

紐約大學(xué)助理教授謝賽寧高贊Sora是“難以置信的、將重塑視頻生成社區(qū)”,并發(fā)表多篇推文進(jìn)行分析,推測Sora建立在擴散Transformer模型之上,整個Sora模型可能有30億個參數(shù)。

值得一提的是,Meta首席AI科學(xué)家楊立昆轉(zhuǎn)發(fā)評論稱他的前同事謝賽寧和他的前伯克利學(xué)生、現(xiàn)任OpenAI工程師的William Peebles前年合著的擴散Transformer論文,顯然是Sora的基礎(chǔ)。

論文地址:https://arxiv.org/abs/2307.06304

楊立昆還特意指出,這篇論文曾因“缺乏新穎性”而被計算機視覺學(xué)術(shù)頂會之一拒收。

下一章將附上大牛們更全面的技術(shù)分析。

 02 
每個視頻都能挑出錯,Sora
為什么還能這么火?

OpenAI在發(fā)布Sora的博客文章下方特意強調(diào)其展示的所有視頻示例均由Sora生成。比起OpenAI的承諾,更能證明Sora清白的是這些視頻中出現(xiàn)的各種生成式AI“靈魂錯誤”。

比如,隨著時間推移,有的人物、動物或物品會消失、變形或者生出分身;或者出現(xiàn)一些違背物理常識的鬧鬼畫面,像穿過籃筐的籃球、懸浮移動的椅子。

這些怪誕的鏡頭,說明Sora雖然能力驚人,但水平還不夠“封神”。這也給它的競品和擔(dān)心工作被取代的人類留下了進(jìn)化的余地。

畢竟,AI視頻生成已經(jīng)斷斷續(xù)續(xù)火了一年多,而當(dāng)前最晚出場的Sora,就算是錯漏百出,也已經(jīng)在時長、逼真度等方面甩開同行一條街。

主要視頻生成模型/技術(shù)對比(來源:東吳證券)

讓機器生成視頻,難點在于“逼真”。比如一個人在同一個視頻里的長焦和短焦鏡頭里外觀不會變化;隨著鏡頭轉(zhuǎn)動,站在山崖上的小狗應(yīng)該跟山崖保持一致的移動;咬一口面包,面包就會少一塊并出現(xiàn)牙印……這些邏輯對人來說似乎顯而易見,但AI模型很難領(lǐng)悟到前一幀和后一幀畫面之間的各種邏輯和關(guān)聯(lián)。

首先要強調(diào)下生成式AI模型跟傳統(tǒng)信息檢索的區(qū)別。傳統(tǒng)檢索是按圖索驥,從數(shù)據(jù)庫固定位置調(diào)取信息,準(zhǔn)確度高,但不具備舉一反三的能力。而生成式AI模型不會去記住數(shù)據(jù)本身,而是從大量數(shù)據(jù)中去學(xué)習(xí)和掌握生成語言、圖像或視頻的某種方法,產(chǎn)生難以解釋的“涌現(xiàn)”能力。

OpenAI在技術(shù)報告里總結(jié)了一些以前模型常用的視頻生成和建模方法,包括循環(huán)網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)、自回歸Transformer和擴散模型。它們只能生成固定尺寸、時長較短的視頻。

而Sora實現(xiàn)了將Transformer和擴散模型結(jié)合的創(chuàng)新,首先將不同類型的視覺數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的視覺數(shù)據(jù)表示(視覺patch),然后將原始視頻壓縮到一個低維潛在空間,并將視覺表示分解成時空patch(相當(dāng)于Transformer token),讓Sora在這個潛在空間里進(jìn)行訓(xùn)練并生成視頻。

接著做加噪去噪,輸入噪聲patch后Sora通過預(yù)測原始“干凈”patch來生成視頻。OpenAI發(fā)現(xiàn)訓(xùn)練計算量越大,樣本質(zhì)量就會越高,特別是經(jīng)過大規(guī)模訓(xùn)練后,Sora展現(xiàn)出模擬現(xiàn)實世界某些屬性的“涌現(xiàn)”能力。

這也是為啥OpenAI把視頻生成模型稱作“世界模擬器”,并總結(jié)說持續(xù)擴展視頻模型是一條模擬物理和數(shù)字世界的希望之路。

令技術(shù)大牛們興奮的焦點就在這個能力上。

擴散Transformer模型論文第一作者謝賽寧發(fā)表了多篇推文,分享對Sora技術(shù)報告的看法:

先看架構(gòu),構(gòu)建于擴散Transformer(DiT)模型上,DiT=[VAE編碼器+ ViT + DDPM + VAE解碼器]。

其次是視頻壓縮網(wǎng)絡(luò),看起來只是一個訓(xùn)練原始視頻數(shù)據(jù)的VAE(一個ConvNet),Token化可能在獲得良好的時間一致性方面發(fā)揮重要作用。


謝賽寧回顧說,在研究DiT項目時,他和Bill沒有創(chuàng)造“新穎性”,而是優(yōu)先考慮了簡單和可擴展性。

簡單意味著靈活。他認(rèn)為人們經(jīng)常忽略掉一件很酷的事,當(dāng)涉及到處理輸入數(shù)據(jù)時,如果讓模型方式更靈活。例如在MAE中,ViT幫助我們只處理可見patches,而忽略掩碼patches;類似的,Sora“可通過在適當(dāng)大小的網(wǎng)格中安排隨機初始化的patches來控制生成視頻的大小”,而UNet并不直接提供這種靈活性。

他猜測Sora可能還會使用谷歌的Patch n' Pack(NaViT),使DiT適應(yīng)各種分辨率/持續(xù)時間/寬高比。?

論文地址:arxiv.org/abs/2212.09748

可擴展性是DiT論文的核心主題。就每Flop的時鐘時間而言,優(yōu)化的DiT比UNet運行得快得多。更重要的是,Sora證明了Dil擴展定律不僅適用于圖像,也適用于視頻——Sora復(fù)制了在DiT中觀察到的視覺擴展行為。

謝賽寧推測在Sora報告中,第一個視頻的質(zhì)量相當(dāng)糟糕,懷疑它使用的是基本模型尺寸,并做了個粗略計算:DiT XL/2是B/2模型的5倍GFLOPs,所以最終的16X計算模型可能是DiT-XL模型大小的3倍,這意味著Sora可能有大約30億個參數(shù)——如果是真的,這不是一個不合理的模型大小。這可能表明,訓(xùn)練Sora模型可能不需要像人們預(yù)期的那樣多的GPU——預(yù)計會有非常快的迭代。

在他看來,關(guān)鍵的收獲來自“新興的模擬能力”部分。在Sora之前,我們并不清楚長期的一致性能否獨立出現(xiàn),或者它是否需要復(fù)雜的主題驅(qū)動生成流水線,甚至是物理模擬器。OpenAl已經(jīng)證明,雖然不完美,但這些行為可以通過端到端訓(xùn)練來實現(xiàn)。但還有兩個要點尚未討論:

1. 訓(xùn)練數(shù)據(jù):完全沒有談?wù)撚?xùn)練來源和構(gòu)建,這可能只是暗示數(shù)據(jù)可能是Sora成功的最關(guān)鍵因素。

2. (自回歸)長視頻生成:Sora的一個重大突破是能夠生成非常長的視頻。制作2秒視頻和1分鐘視頻的區(qū)別是巨大的。

在Sora中,這可能是通過允許自回歸采樣的聯(lián)合幀預(yù)測來實現(xiàn)的,但一個主要挑戰(zhàn)是如何解決誤差積累并保持質(zhì)量/一致性。一個非常長的(和雙向的)條件作用環(huán)境?或者擴大規(guī)模可以簡單地減輕這個問題?謝賽寧認(rèn)為這些技術(shù)細(xì)節(jié)可能非常重要,希望在未來能被揭開神秘面紗。

謝賽寧還不忘給自己團(tuán)隊的新DiT模型SiT打個廣告:具有完全相同的架構(gòu),但提供了增強的性能和更快的收斂速度。對它在視頻生成上的表現(xiàn)也非常好奇。

Jim Fan認(rèn)為,Sora是一款數(shù)據(jù)驅(qū)動的物理模擬引擎,通過一些去噪和梯度計算來學(xué)習(xí)復(fù)雜的渲染、“直覺”物理、長遠(yuǎn)規(guī)劃推理和語義基礎(chǔ)。它直接輸入文本/圖像并輸出視頻像素,通過大量視頻、梯度下降,在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎,它不會在循環(huán)中顯式調(diào)用虛擬引擎5,但虛擬引擎5生成的(文本、視頻)有可能會作為合成數(shù)據(jù)添加到訓(xùn)練集中。

他對“Sora并不是在學(xué)習(xí)物理,它只是在操縱2D中的像素”觀點持反對意見,認(rèn)為這類似于說“GPT-4不學(xué)習(xí)編程,它只是采樣字符串”。

“為了生成可執(zhí)行的Python代碼,GPT-4必須在內(nèi)部學(xué)習(xí)某種形式的語法、語義和數(shù)據(jù)結(jié)構(gòu)。GPT-4不顯式存儲Python語法樹。非常類似的,Sora必須學(xué)習(xí)一些文生3D、3D轉(zhuǎn)換、光線追蹤渲染和物理規(guī)則的'隱式’形式,以便盡可能準(zhǔn)確地建模視頻像素。它必須學(xué)習(xí)游戲引擎的概念以滿足目標(biāo)。”Jim Fan寫道。

Jim Fan認(rèn)為,如果不考慮交互,虛擬引擎5是一個(非常復(fù)雜的)生成視頻像素的過程,Sora也是一個基于端到端Transformers的生成視頻像素的過程,它們在相同的抽象層次上,不同的是虛擬引擎5是人工制作的、精確的,而Sora純粹通過數(shù)據(jù)和“直覺”來學(xué)習(xí)

在他看來,目前Sora對涌現(xiàn)物理的理解是脆弱的,遠(yuǎn)非完美,仍會產(chǎn)生嚴(yán)重、不符合常識的幻覺,還不能很好掌握物體間的相互作用。

目前Sora的訓(xùn)練數(shù)據(jù)源是業(yè)界普遍的關(guān)注重點,但OpenAI一如既往遵循“ClosedAI”原則,并沒有透露相關(guān)信息。

 03 
打開視頻創(chuàng)作便捷之門
或改變短視頻市場秩序

Sora向非專業(yè)人士打開了一扇創(chuàng)造虛擬世界的便捷之門,盡管它還不能被立即使用,但它劇透了未來先進(jìn)AI工具能帶來的新用途

FutureHouseSF聯(lián)合創(chuàng)始人Andrew White認(rèn)為,或許Sora可以模擬《我的世界》這個游戲,甚至下一代游戲機將是Sora box,游戲?qū)⒁?-3段文字的形式發(fā)布。

當(dāng)然,不完美的Sora在其生成的48個視頻Demo中留了不少穿幫畫面,如果將這些鏡頭放到影視劇里或者作為精心制作的長視頻的素材,需要做很多修補工作。

不過對于那些原本無法估量預(yù)算的拍攝場景,或者是資源有限的獨立創(chuàng)作者,AI工具足以幫助節(jié)約相當(dāng)可觀的成本。

一位專業(yè)動畫師Owen Fern分享說,自己不擔(dān)心Sora的原因是動畫是一個迭代過程,客戶會對每一幀的細(xì)節(jié)提出修改意見,比如這一幀的表情要更可愛、那一幀人物的鼻子要打高光……人類可以一點點按需修改,而AI只能全部推倒重來。

如果用AI制作視頻的目的僅僅是“好玩”,那么用Sora生成一些不完美但吸睛的視頻,足夠在短視頻平臺上掀起新的流行與狂歡。

用AI制作創(chuàng)意視頻固然無可厚非。但設(shè)想一下,當(dāng)你被一些萌寵、萌娃視頻可愛到,當(dāng)你被獨具風(fēng)格的風(fēng)景或室內(nèi)設(shè)計驚艷到,然后得知這些其實是由AI生成的,會不會有種不舒服的感覺?

再試想,當(dāng)你訂閱的博主賬號經(jīng)常發(fā)一些漂亮或有趣的視頻,而這些視頻都是用AI制作的,運營這個賬號的幕后公司還擁有數(shù)千個應(yīng)用類似AI手段的網(wǎng)紅賬戶,流水線般吸走訂閱者的時間。

無論是游戲、專業(yè)視頻還是短視頻制作,只要放在公共平臺,至少有很多專業(yè)人士能來捕捉漏洞。但這類工具的另一重風(fēng)險,連OpenAI和谷歌都諱莫如深——人類想象力的黑暗面也是無限的,當(dāng)進(jìn)入尋常百姓家,AI工具造成的負(fù)面影響可能失控。

AI欺詐案件已經(jīng)越來越頻發(fā)。由于人們在日常生活中通常不會逐幀分辨視頻真?zhèn)危l(fā)以假亂真的AI視頻生成和深度偽造技術(shù)足以化為欺詐者和詆毀者手里的利刃,刺向毫無防備的人。

 04 
預(yù)計OpenAI會謹(jǐn)慎考慮
Sora對外開放時間

此前OpenAI花了大約半年來測試其大語言模型GPT-4。如果測試Sora需要差不多的時長,這個強大的視頻生成工具可能會在8月份開放。不過考慮到深偽技術(shù)帶給美國大選的負(fù)面影響,OpenAI估計會謹(jǐn)慎考慮正式公開Sora的時間。

在與谷歌Gemini 1.5 Pro相繼出場的輿論戰(zhàn)中,OpenAI Sora可以說是取得了碾壓式勝利。畢竟相比暴走一年多的大語言模型,還是“眼見為虛”的60秒視頻生成模型更有新鮮感和沖擊力。

但從實用性來看,風(fēng)頭更勝一籌的Sora只是展示了幾十個精選作品,離落地還有相當(dāng)?shù)木嚯x。而OpenAI的大語言模型大本營正在被對手偷塔——谷歌突破的100萬tokens大招,能夠給長文本問答、視頻理解帶來驚人的效率飛升,OpenAI必須盡快回?fù)簟?/p>

生成式AI工具已經(jīng)敲響了低水平繪畫、動畫、影視內(nèi)容創(chuàng)作者的喪鐘。就像蒸汽機、發(fā)電機的發(fā)明會解放生產(chǎn)力,也會淘汰掉大量舊生產(chǎn)線上的工人,AI同樣會頂替一些平凡的任務(wù),淘汰掉一撥人,但最終將推動人類創(chuàng)新和創(chuàng)造力的進(jìn)化。

隨著各類生成式AI模型加速演進(jìn),我們看到一個完全由文本構(gòu)建的整個世界,只是時間問題。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
OpenAI再次先聲奪人,中國人工智能創(chuàng)新路在何方?
Sora帶來的四點啟發(fā)
震撼一夜!OpenAI首個AI視頻模型炸裂登場,谷歌升級Gemini 1.5完爆GPT-4|鈦媒體AGI
OpenAI、谷歌相繼發(fā)力AI再度提速,國內(nèi)產(chǎn)業(yè)鏈有望深度受益
這只是開始的結(jié)束
解讀OpenAI Sora文生視頻技術(shù)原理
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 仁寿县| 富平县| 民丰县| 长丰县| 应城市| 襄垣县| 织金县| 深水埗区| 会宁县| 东明县| 丹凤县| 邵阳县| 定西市| 普兰店市| 西华县| 天峨县| 玉山县| 瑞昌市| 连南| 普宁市| 虹口区| 西林县| 安新县| 鹰潭市| 独山县| 岚皋县| 九台市| 岳阳市| 汤阴县| 彭山县| 咸宁市| 光山县| 来凤县| 岳阳县| 汝州市| 宁波市| 邳州市| 辽中县| 延寿县| 土默特左旗| 轮台县|