哈哈,昨天邊吃飯喝酒的時候就手機信息全讓這貨給炸屏了。連夜研究了下確實嚇出冷汗呀,它竟然可以生成長視頻而且那么逼真昨天夜晚的時候發現真估計是AGI涌現了。也幫大家整理了下內容哈~。
什么是“Sora”?它的亮點?
在2月16日凌晨,OpenAI發布了全新的視頻生成模型——Sora。Sora將超越目前市場上的所有文字生成視頻模型。從此刻開始,我們所見到的視頻和動圖將全部由這個AI生成,而非實際拍攝。Sora 三大亮點突出:1、60 秒長視頻,Sora 可以保持視頻主體與背景的高度流暢性與穩定性。2、單視頻多角度鏡頭,Sora 在一個視頻內實現多角度鏡頭,分鏡切換符合邏輯且十分流暢。3、理解真實世界的能力,Sora 對于光影反射、運動方式、鏡頭移動等細節處理得十分優秀,極大地提升了真實感。
行業大佬周鴻祎,Sora 意味著AGI實現將從10年縮短到1年,個人認為1~3年會實現。下面是大佬關于從10年縮短到1年的分析文章。
OpenAI,Sora一出道就成了圖文視頻AGI涌現,導致一眾pika\runway\SVD兄弟都膜拜了跪了。
相較于一眾小弟只能生成短暫、個位數秒長的視頻,Sora能夠實現一分鐘時長的視頻生成,這種跨越無疑產生了顛覆性的效果。
哈哈,講了這么多大家一起來欣賞下“Sora“的能力吧。
1、Sora,AI想象中的龍年春節,紅旗招展人山人海。
2、Sora,AI想象中人物的瞳孔、睫毛、皮膚紋理,都逼真到看不出一絲破綻,完全沒有AI味兒
3、Sora,AI想象中一位時髦女士漫步在東京街頭,周圍是溫暖閃爍的霓虹燈和動感的城市標志。
提示:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發光霓虹燈和動畫城市標志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。
4、Sora,AI想象中豎屏超近景視角下,這只蜥蜴細節拉滿
5、Sora,AI想象中在一間擁有電影級燈光設置的充滿托斯卡納鄉村風情的廚房里,一位擅長利用社交媒體的奶奶,正在教你制作美味的自制諾奇面。
6、Sora,AI想象中五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數量會變化,一些憑空出現或消失。
7、Sora,AI想象中博朋克背景下機器人的生活故事
8、Sora,AI想象中幾只巨大的毛茸茸的猛犸象正踏著白雪皚皚的草地走來,它們長長的毛茸茸的皮毛在風中輕輕飄動,遠處覆蓋著積雪的樹木和雄偉的雪山,午后的陽光下有縷縷云彩,太陽高掛在天空中。”距離產生了溫暖的光芒,低攝像頭視角令人驚嘆地捕捉到了大型毛茸茸的哺乳動物,具有美麗的攝影和景深。
9、Sora,AI想象中兩艘海盜船在咖啡杯里互相戰斗的逼真特寫視頻
哇哦Sora真的很秀呀,未來可能電影都是AGI通用人工智能生產的。
下面是關于OPENAI,Sora體驗地址與技術說明文檔
sora官方展示網址:https://openai.com/sora
sora官方技術說明文檔:
https://openai.com/research/video-generation-models-as-world-simulators
一些參考推薦:
作為世界模擬器的視頻生成模型:Video generation models as world simulators (openai.com)
Generative models: (openai.com)
https://www.zhihu.com/question/644473449/answer/3397947587
《Scalable diffusion models with transformers》,
https://arxiv.org/abs/2212.09748
https://mp.weixin.qq.com/s/gSvxvOVqYtGcKw0ueDGbFA
https://mp.weixin.qq.com/s/2iGVsdz6YHHupsKIPxRjdQ
Sora技術報告主要內容
1、Sora將視覺數據轉化為補丁
借鑒于大型語言模型的成功經驗,這些模型通過海量的互聯網數據訓練,具備出色的通用能力。LLM范式的成功得益于其巧妙運用標記,這些標記巧妙地統一了文本、代碼、數學以及各種自然語言模式。在研究中OpenAI思考了視覺數據生成模型如何能夠繼承并運用這些優勢。相較于LLM擁有文本標記,Sora則通過引入視覺補丁實現其目標。過去的研究已經證明,補丁在表示視覺數據模型時是一種有效的方式。發現表明,補丁是一種高度可擴展和有效的表示方式,適用于在不同類型的視頻和圖像上進行生成模型的訓練。在更高層面上,首先將視頻壓縮至較低維的潛在空間,然后通過將表示分解為時空補丁的方式,成功地將視頻轉換為補丁形式。這一方法為訓練生成模型提供了更靈活、更有效的手段。
2、Sora頻壓縮網絡
通過訓練網絡成功實現了對視覺數據維度的降低。這個網絡以原始視頻為輸入,輸出在時間和空間上經過壓縮的潛在表示。Sora在這一壓縮的潛在空間中接受訓練,進而生成出新的視頻。為了完善這一過程進行了解碼器模型的訓練,它能夠將生成的潛在表示映射回像素空間,為最終的視覺輸出提供了高質量的還原。
這個創新性的方法不僅能夠在降低數據維度的同時保持信息的關鍵性,還為視覺數據處理領域帶來了更為高效和靈活的解決方案。
3、Sora語言理解
為了訓練文本到視頻生成系統采用具備相應文本字幕的大量視頻。引入了DALL·E 3中的重新字幕技術,首先培訓了一個高度描述性的字幕生成器模型,并將其用于為訓練集中的所有視頻生成文本字幕。這一過程的關鍵是通過對高度描述性視頻字幕的訓練,提高文本的保真度,從而提升整體視頻質量。與DALL·E 3相似,巧妙地利用GPT將短小的用戶提示轉換為更為詳細的字幕,然后將其發送到視頻模型。這一策略使得Sora能夠生成高質量視頻,準確地符合用戶的提示,為用戶提供了更加個性化和令人滿意的視覺體驗。
其他擴展導讀:
Sora雖然不是第一個文生視頻大模型,但之前的模型生成的視頻都很短。記得去年嗎?信雅達的大老板郭華強的女兒在國外搞了個AI公司叫Pika Labs,他們發布的Pika 1.0文生視頻大模型真的很火。你只需輸入一張圖片和想要的動態指令,或者選一段視頻的某個部分,然后輸入指令,就能生成視頻。但很多人覺得,雖然視頻質量挺好的,但只能生成3秒以內的,這點真的讓人有點頭疼。所以,Sora在這方面做得更好了。
Sora可能帶來的影響?
如果Sora能夠真正意義上實現文生視頻,可能會帶來哪些影響呢?
1、沒有真實演員參與的影視作品將成為可能,這無疑給傳統演員帶來了新的挑戰。同時,這也將催生真正意義上的“虛擬偶像”的興起。與之前的二次元人物相比,這些虛擬偶像將更加逼真、生動,并有可能在娛樂界占據一席之地。
2、這對于編劇行業來說是一個積極的信號,劇本和文本創作的能力將成為這個行業的核心競爭力。
3、Sora可能才是真正的文生視頻,此前的文生視頻大多只有2秒,僅僅是對象的小幅度移動。
4、OpenAI繼續拉大領先程度,對眾多還在進行大模型測試打分pk的廠商,構成壓力。
5、影視行業,特別是特效制作領域,將直接受益于這一技術。利用AI制作特效和高風險鏡頭,不僅能顯著降低拍攝成本,還能避免許多潛在的危險。
6、攝影師行業也會受到影響,用文本來生成一些視頻,可以省去很多拍攝工作。
7、隨著短視頻的流行,視頻剪輯師這個職業也變得越來越熱門。然而,如果AI技術能夠取代視頻剪輯師的工作,那么這個職業可能會面臨失業的風險。
8、對于很多短視頻創作者來說,用AI來替代繁瑣的剪輯工作,可以大幅提高工作效率。
9、許多歌手在拍攝MV時需要投入大量成本。但如果AI技術能夠用來生成MV所需的畫面,這將為歌手節省大量的制作成本。
10、此外,如果真正實現了文生視頻技術,我們也需要警惕不法分子可能會利用這一技術實施新型的違法犯罪行為。
不過,從Sora官網目前展示的視頻畫面效果來看,效果還沒那么逼近真實,短期內不會產生讓行業失業,但會有輔助作用,做個動畫片應該問題不大。在Sora官網,OpenAI表示,Sora是能夠理解和模擬現實世界的模型的基礎,OpenAI相信這一能力將是實現AGI的重要里程碑。
終上所述:
少峰個人觀點,OpenAI的SORA無疑給我們帶來了很多驚喜,但它并非完美無缺。它既有其獨特的優勢,也存在一些不足;既有廣闊的發展前景,也面臨著諸多挑戰;既有創新之處,也有其局限性。因此,我們應該以客觀、全面的眼光來審視和評價SORA,既要欣賞其所帶來的優勢,也要正視其存在的問題。期待在OpenAI的不斷努力下,最終上線的SORA能夠克服這些難題,為我們帶來更加出色的表現。其實更多的應該是如何能實現各種場景應用,所以讓子彈在飛一會。
Sora的出現,給企業數智化的啟示
人工智能技術的迅猛發展已經遠超預期,這既帶來了無限的可能性,也對我們提出了新的挑戰。在尚未擁有強大的AI能力之前,我們需要具備前瞻性的思考力,積極探索如何借助AI工具來增強我們的創造力,而不是陷入恐慌。新技術的涌現不僅正在重塑我們的認知和生活方式,更在深刻地改變我們的思維方式。然而,在享受AI技術帶來的思想盛宴的同時,企業在數字化建設和AI融合利用方面需要保持更多的理智。這是因為,只有在理性和審慎的指導下,我們才能確保AI技術的健康發展,避免盲目跟風或過度依賴,從而實現真正的創新和可持續發展。原因如下:
1、AI技術目前尚不成熟,需要一個發展完善的過程,而對于場景化的技術落地,則需要更長的路要走;
2、AI技術落地企業場景需要的不僅是時間更需要大量的資金投入;一般的企業難以承受,且這種投入是持續性的;
3、企業員工的AI思維能力與AI工具的融合更需要一個長時間的磨合過程;
因此少峰認為,當前企業領導者在對待AI技術時,需要保持理智的思考,避免對其抱有過高的期望。同時,也要認識到目前大多數軟件公司在AI技術支持方面仍有很大的提升空間。因此,企業領導者不應理所當然地認為僅僅通過應用AI技術就能立即優化大量員工或大幅降低成本支出。實際上,實現這些目標需要綜合考慮多種因素,包括技術成熟度、員工培訓、業務流程調整等。只有在全面評估和合理規劃的基礎上,才能充分發揮AI技術的潛力,為企業帶來真正的價值。
感謝大家閱讀到這里面,也贈送給大家一份見面禮。
我自己整理AGI知識庫。
AGI知識庫地址如何獲取?
滑到上面看到”少峰說“,關注我公眾號,發送”AGI“關鍵詞領取。
(完) 少峰 跟你們一起長,未來咱們一起探討如何通過AI成為超級個體“你帶我帶你”搞錢,少峰“你帶我帶你”搞流量,祝大家越來越有錢。