更美圖像生成、直出分鐘級(jí)視頻,國(guó)產(chǎn)自研DiT架構(gòu)的越級(jí)之旅
一轉(zhuǎn)眼,2024 年已經(jīng)過(guò)半。我們不難發(fā)現(xiàn),AI 尤其是 AIGC 領(lǐng)域出現(xiàn)一個(gè)越來(lái)越明顯的趨勢(shì):文生圖賽道進(jìn)入到了穩(wěn)步推進(jìn)、加速商業(yè)落地的階段,但同時(shí)僅生成靜態(tài)圖像已經(jīng)無(wú)法滿足人們對(duì)生成式 AI 能力的期待,對(duì)動(dòng)態(tài)視頻的創(chuàng)作需求前所未有的高漲。因此,文生視頻賽道持續(xù)高熱,尤其是自年初 OpenAI 發(fā)布 Sora 以來(lái),以 Diffusion Transformer(DiT)為底層架構(gòu)的視頻生成模型迎來(lái)了井噴期。在這一賽道,國(guó)內(nèi)外視頻生成模型廠商們正默默展開著一場(chǎng)技術(shù)競(jìng)速。在國(guó)內(nèi),一家成立于去年 3 月、專注于構(gòu)建視覺多模態(tài)基礎(chǔ)模型及應(yīng)用的生成式 AI 初創(chuàng)公司不斷出現(xiàn)在人們的視野中。它就是智象未來(lái)(HiDream.ai),其自主研發(fā)的視覺多模態(tài)基礎(chǔ)模型實(shí)現(xiàn)了不同模態(tài)之間的生成轉(zhuǎn)換,支持文生圖、文生視頻、圖生視頻和文生 3D,并推出了一站式 AI 圖像和視頻生成平臺(tái)「Pixeling 千象」供社會(huì)大眾上手使用。體驗(yàn)地址:www.hidreamai.com自智象大模型 2023 年 8 月上線以來(lái),期間歷經(jīng)數(shù)次迭代與打磨,通過(guò)優(yōu)化基礎(chǔ)模型來(lái)深挖、拓展文生圖和文生視頻等 AIGC 能力。尤其是在視頻生成領(lǐng)域,支持的生成時(shí)長(zhǎng)從最開始的 4 秒增加到了 15 秒,成像效果也肉眼可見地更優(yōu)。如今,智象大模型再次迎來(lái)升級(jí),基于中文原生的獨(dú)有 DiT 架構(gòu)釋放出更強(qiáng)大、更穩(wěn)定、對(duì)用戶更友好的圖像和視頻生成能力,包括更具美感和藝術(shù)性的圖像生成、圖像中文字嵌入、分鐘級(jí)視頻生成等。所有這些圖像和視頻生成新技能的展示,離不開智象未來(lái)在多模態(tài)視覺生成領(lǐng)域的技術(shù)積累和持續(xù)創(chuàng)新。智象大模型從一開始便瞄準(zhǔn)了文本、圖像、視頻、3D 的聯(lián)合建模,通過(guò)交互式生成技術(shù)實(shí)現(xiàn)精準(zhǔn)可控的多模態(tài)內(nèi)容生成,構(gòu)筑強(qiáng)大的基模能力,讓用戶在其文生圖、文生視頻 AIGC 平臺(tái)中有更好的創(chuàng)作體驗(yàn)。此次智象大模型 2.0 的整體升級(jí),相較于 1.0 版本在底層架構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上均有質(zhì)的變化,由此帶來(lái)了文本、圖像、視頻和 3D 多模能力的又一次飛躍和交互體驗(yàn)上的切實(shí)提升。可以說(shuō),升級(jí)后的智象大模型在圖像、視頻生成領(lǐng)域迎來(lái)了全方位加強(qiáng),并為多模態(tài)大模型創(chuàng)作一站式 AIGC 生成平臺(tái)注入了更加強(qiáng)勁的驅(qū)動(dòng)力。作為 AIGC 的一站式生成平臺(tái),文生圖是文生視頻的前提和重要的技術(shù)壁壘。因此智象未來(lái)在文生圖方向上寄予了很高的預(yù)期,以自己的節(jié)奏推進(jìn)更多樣性功能、更逼真視覺效果以及更友好用戶體驗(yàn)。經(jīng)過(guò)了一系列針對(duì)性調(diào)整和優(yōu)化,智象大模型 2.0 文生圖能力相較以往版本顯著改進(jìn),并從多個(gè)外在呈現(xiàn)效果上很容易看出來(lái)。首先,智象大模型 2.0 生成的圖像更有美感、更具藝術(shù)性。當(dāng)前的文生圖大模型在語(yǔ)義理解、生成圖像結(jié)構(gòu)和畫面細(xì)節(jié)等較為直觀的方面可以做得很好,但在質(zhì)感、美感、藝術(shù)性等偏感官方面可能無(wú)法讓人滿意。因此,追求美感成為了此次文生圖升級(jí)的重點(diǎn)。究竟效果如何呢?我們可以來(lái)看下面兩個(gè)示例。第一個(gè)示例輸入的 Prompt 為「一個(gè)戴著巨大帽子的小女孩,帽子上有很多城堡,花草樹木,鳥類,五顏六色,特寫,細(xì)節(jié),插畫風(fēng)格」。第二個(gè)示例輸入的 Prompt 為「綠色植物葉子特寫照片,深色主題,水滴細(xì)節(jié),移動(dòng)壁紙」。生成的兩張圖像,無(wú)論是構(gòu)圖色調(diào),還是細(xì)節(jié)豐富度,看上去都有一種讓人眼前一亮的感覺,這些都極大地拉升了整體畫面美感。除了讓生成的圖像看上去更美之外,生成圖像的相關(guān)性也更強(qiáng)。這也是圖像生成發(fā)展到一定階段后,大家非常關(guān)注的一個(gè)方面。為了提升生成圖像的相關(guān)性,智象大模型重點(diǎn)強(qiáng)化了對(duì)一些復(fù)雜邏輯的理解,比如不同的空間布局、位置關(guān)系、不同類型的物體、生成物體的數(shù)量等,這些都是實(shí)現(xiàn)更高相關(guān)性的重要因素。一番調(diào)教下來(lái),智象大模型可以輕松搞定包含多物體、多位置分布、復(fù)雜空間邏輯的圖像生成任務(wù),更好地滿足現(xiàn)實(shí)生活中用戶的實(shí)際需求。我們來(lái)看下面三個(gè)需要對(duì)不同物體、空間位置關(guān)系進(jìn)行深刻理解的生成示例。結(jié)果表明,對(duì)于包含復(fù)雜邏輯的長(zhǎng)短文本 Prompt,文生圖現(xiàn)在都能輕松搞定。第一個(gè)示例輸入的 Prompt 為「廚房桌子上有三個(gè)裝滿水果的籃子。中間的籃子里裝滿了青蘋果。左邊的籃子里裝滿了草莓。右邊的籃子里滿是藍(lán)莓。籃子后面是一只白色狗。背景是一面青綠色的墻壁,上面有彩色的文字 'Pixeling v2'」。第二個(gè)示例輸入的 Prompt 為「右邊是一只貓,左邊是一只狗,中間是一個(gè)綠色的立方體放在一個(gè)藍(lán)色的球上」。第三個(gè)示例輸入的 Prompt 為「在月球上,一名宇航員騎著一頭牛,穿著粉色芭蕾裙,手拿著藍(lán)色傘。牛的右邊是一只戴著高頂帽的企鵝。底部寫著文字 “HiDream.Al”」。同時(shí),圖像中嵌入文字的生成更加準(zhǔn)確、高效,這一海報(bào)或營(yíng)銷文案中使用比較多的功能得到加強(qiáng)。在技術(shù)實(shí)現(xiàn)上,生成圖像中嵌入文字需要大模型深刻理解輸入的 Prompt 中視覺外觀描述和精準(zhǔn)文字內(nèi)容,從而在保證圖像整體美感和藝術(shù)性的同時(shí)實(shí)現(xiàn)對(duì)文字內(nèi)容的精準(zhǔn)刻畫。在接受機(jī)器之心的專訪時(shí),智象未來(lái) CTO 姚霆博士提到,對(duì)于此類任務(wù),以往版本很多時(shí)候無(wú)法生成,即便能生成也存在問(wèn)題,在生成的字符或者準(zhǔn)確性上都有欠缺。現(xiàn)在這些問(wèn)題得到了很好地解決,智象大模型實(shí)現(xiàn)了圖像中長(zhǎng)文本的嵌入生成,最多可以做到幾十個(gè)單詞。下面從左到右三個(gè)生成示例展示出了很好的文字嵌入效果,尤其是圖右準(zhǔn)確無(wú)誤地嵌入了二十幾個(gè)單詞及標(biāo)點(diǎn)符號(hào)。可以說(shuō),此次智象大模型的文生圖功能在行業(yè)中實(shí)現(xiàn)了行業(yè)引領(lǐng)的效果,為視頻生成打下了關(guān)鍵的牟定基礎(chǔ)。如果說(shuō)升級(jí)后的智象大模型 2.0 在文生圖方向做到了穩(wěn)扎穩(wěn)打,那么在文生視頻方向則迎來(lái)了跨越式突破。去年 12 月,智象大模型的文生視頻打破了 4 秒時(shí)長(zhǎng)限制,做到了支持 15 秒鐘以上的生成時(shí)長(zhǎng)。半年過(guò)去了,文生視頻在時(shí)長(zhǎng)、畫面自然度、內(nèi)容和角色一致性上均有顯著提升,而這要?dú)w功于其自研了一套成熟的 DiT 架構(gòu)。相較于 U-Net,DiT 架構(gòu)靈活度更高,且能增強(qiáng)圖像、視頻的生成質(zhì)量。Sora 的出現(xiàn)更直觀地驗(yàn)證了這一點(diǎn),采用此類架構(gòu)的擴(kuò)散模型表現(xiàn)出了天然生成高質(zhì)量圖像和視頻的傾向,并在可定制化、生成內(nèi)容可控性方面具有相對(duì)優(yōu)勢(shì)。對(duì)于智象大模型 2.0 而言,其采用的 DiT 架構(gòu)又有一些獨(dú)特的地方。我們知道,DiT 架構(gòu)的底層實(shí)現(xiàn)都是基于 Transformer,智象大模型 2.0 在整個(gè) Transformer 網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)的構(gòu)成和訓(xùn)練策略上采用完全自研的模塊,尤其在網(wǎng)絡(luò)訓(xùn)練策略上下足了功夫。首先,Transformer 網(wǎng)絡(luò)結(jié)構(gòu)采用了高效的時(shí)空聯(lián)合注意力機(jī)制,不僅契合了視頻兼具空間域和時(shí)間域的特征,而且解決了傳統(tǒng)注意力機(jī)制在實(shí)際訓(xùn)練過(guò)程中速度跟不上的難題。其次,AI 視頻任務(wù)中的長(zhǎng)鏡頭生成對(duì)訓(xùn)練數(shù)據(jù)的來(lái)源、篩選提出了更高要求。因此,智象大模型最多支持幾分鐘甚至十幾分鐘視頻片段的訓(xùn)練,這樣一來(lái),直接輸出分鐘級(jí)時(shí)長(zhǎng)的視頻有了可能。同時(shí),對(duì)分鐘級(jí)視頻內(nèi)容的描述也是比較困難的事情,智象未來(lái)自研了視頻描述生成的 Captioning Model,實(shí)現(xiàn)了詳細(xì)且精準(zhǔn)的描述輸出。最后在訓(xùn)練策略上,由于長(zhǎng)鏡頭視頻數(shù)據(jù)有限,因此智象大模型 2.0 使用了不同長(zhǎng)度的視頻片段,進(jìn)行視頻和圖片數(shù)據(jù)的聯(lián)合訓(xùn)練,并動(dòng)態(tài)地改變不同長(zhǎng)度視頻的采樣率,進(jìn)而完成長(zhǎng)鏡頭訓(xùn)練,同時(shí)在訓(xùn)練時(shí)還會(huì)根據(jù)用戶反饋數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)以進(jìn)一步優(yōu)化模型性能。也因此,更強(qiáng)大自研 DiT 架構(gòu)為此次文生視頻效果的進(jìn)一步提升提供了技術(shù)支撐。現(xiàn)在,智象大模型 2.0 支持生成的視頻時(shí)長(zhǎng)從 15 秒左右提升到了分鐘級(jí),達(dá)到了業(yè)界較高水平。在視頻時(shí)長(zhǎng)邁入分鐘級(jí)之外,可變時(shí)長(zhǎng)和尺寸也是此次文生視頻功能升級(jí)的一大看點(diǎn)。當(dāng)前視頻生成模型通常是固定生成時(shí)長(zhǎng),用戶無(wú)法選擇。智象未來(lái)將生成時(shí)長(zhǎng)的選擇權(quán)開放給了用戶,既可以讓他們指定時(shí)長(zhǎng),也能夠根據(jù)輸入的 Prompt 內(nèi)容進(jìn)行動(dòng)態(tài)判斷。如果比較復(fù)雜則生成較長(zhǎng)視頻,比較簡(jiǎn)單則生成較短視頻,通過(guò)這樣一個(gè)動(dòng)態(tài)過(guò)程來(lái)自適應(yīng)地滿足用戶的創(chuàng)作需求。生成視頻的尺寸也可以按需定制,對(duì)用戶使用非常友好。此外,整體畫面觀感變得更好,生成視頻中物體的動(dòng)作或運(yùn)動(dòng)更加自然流暢,細(xì)節(jié)渲染更加到位,并支持了 4K 超清畫質(zhì)。短短半年時(shí)間,與以往版本相比,升級(jí)后的文生視頻功能用「脫胎換骨」來(lái)形容也不為過(guò)。不過(guò)在姚霆博士看來(lái),當(dāng)前無(wú)論是智象未來(lái)還是其他同行,視頻生成大部分仍處于單鏡頭階段。如果對(duì)標(biāo)自動(dòng)駕駛領(lǐng)域的 L1 到 L5 階段,文生視頻大致處于 L2 階段。此次借助基模能力的升級(jí),智象未來(lái)想要追求更高質(zhì)量的多鏡頭視頻生成,也邁出了探索 L3 階段的關(guān)鍵一步。智象未來(lái)表示,迭代后的文生視頻功能將在 7 月中旬上線使用。大家可以狠狠地期待一波了!成立不到一年半的時(shí)間,無(wú)論是基礎(chǔ)模型能力的持續(xù)迭代,還是文生圖、文生視頻實(shí)際體驗(yàn)的提升,智象未來(lái)在視覺多模態(tài)生成這一方向上走得既穩(wěn)又快,并收獲了大量 C 端和 B 端用戶。我們了解到,智象未來(lái) C 端用戶單月訪問(wèn)量超過(guò)了百萬(wàn),生成 AI 圖像和視頻的總數(shù)量也超過(guò)千萬(wàn)。低門檻、好應(yīng)用構(gòu)成了智象大模型的特質(zhì),并基于它打造了最適合社會(huì)大眾使用的首款 AIGC 應(yīng)用平臺(tái)。在 B 端,智象未來(lái)積極與中國(guó)移動(dòng)、聯(lián)想集團(tuán)、科大訊飛、上影集團(tuán)、慈文集團(tuán)、神州數(shù)碼、央視網(wǎng)、印象筆記、天工異彩、杭州靈伴等企業(yè)達(dá)成戰(zhàn)略合作協(xié)議,深化模型應(yīng)用場(chǎng)景,將模型能力延展到包括運(yùn)營(yíng)商、智能終端、影視制作、電子商務(wù)、文旅宣傳和品牌營(yíng)銷在內(nèi)的更多行業(yè),最終在商業(yè)化落地過(guò)程中發(fā)揮模型潛能并創(chuàng)造價(jià)值。目前,智象大模型擁有大約 100 家頭部企業(yè)客戶,并為 30000 + 小微企業(yè)客戶提供了 AIGC 服務(wù)。在智象大模型 2.0 發(fā)布之前,智象未來(lái)已經(jīng)聯(lián)合中國(guó)移動(dòng)咪咕集團(tuán)推出了國(guó)民級(jí) AIGC 應(yīng)用「AI 一語(yǔ)成片」,不僅為普通用戶提供零基礎(chǔ) AI 視頻彩鈴創(chuàng)作功能,還助力企業(yè)客戶生成豐富的品牌及營(yíng)銷視頻內(nèi)容,讓企業(yè)擁有屬于自己的彩鈴品牌,讓我們看到了視頻生成融合行業(yè)場(chǎng)景的巨大潛力。此外,AI 生態(tài)也是大模型廠商發(fā)力的重要陣地。在這方面,智象未來(lái)持開放的態(tài)度,聯(lián)合聯(lián)想集團(tuán)、科大訊飛、神州數(shù)碼等大客戶、小型開發(fā)團(tuán)隊(duì)和獨(dú)立開發(fā)者共建包括視頻生成在內(nèi)的廣泛 AI 生態(tài),覆蓋用戶的更多元化需求。2024 年被視為大模型應(yīng)用落地元年,對(duì)所有廠商來(lái)說(shuō)都是關(guān)鍵的發(fā)展節(jié)點(diǎn)。智象未來(lái)正在圍繞更強(qiáng)大的基模能力做深文章。一方面,在統(tǒng)一的框架中強(qiáng)化圖像、視頻、3D 多模態(tài)的理解與生成能力,比如在視頻生成領(lǐng)域繼續(xù)優(yōu)化底層架構(gòu)、算法、數(shù)據(jù)以求得時(shí)長(zhǎng)、質(zhì)量上的更大突破,成為推動(dòng)未來(lái)通用人工智能的不可或缺的一部分;另一方面在用戶體驗(yàn)、創(chuàng)新應(yīng)用、行業(yè)生態(tài)等多個(gè)方向發(fā)力,擴(kuò)大自身的行業(yè)影響力。搶占視頻生成賽道的高地,智象未來(lái)已經(jīng)做好了充足準(zhǔn)備。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。