催熟po1v3道具燃烧,国产成人久久久精品二区三区,久别的草原在线影院电影观看中文

機(jī)器之心原創(chuàng)

作者：杜偉

一轉(zhuǎn)眼，2024 年已經(jīng)過(guò)半。我們不難發(fā)現(xiàn)，AI 尤其是 AIGC 領(lǐng)域出現(xiàn)一個(gè)越來(lái)越明顯的趨勢(shì)：文生圖賽道進(jìn)入到了穩(wěn)步推進(jìn)、加速商業(yè)落地的階段，但同時(shí)僅生成靜態(tài)圖像已經(jīng)無(wú)法滿足人們對(duì)生成式 AI 能力的期待，對(duì)動(dòng)態(tài)視頻的創(chuàng)作需求前所未有的高漲。

因此，文生視頻賽道持續(xù)高熱，尤其是自年初 OpenAI 發(fā)布 Sora 以來(lái)，以 Diffusion Transformer（DiT）為底層架構(gòu)的視頻生成模型迎來(lái)了井噴期。在這一賽道，國(guó)內(nèi)外視頻生成模型廠商們正默默展開著一場(chǎng)技術(shù)競(jìng)速。

在國(guó)內(nèi)，一家成立于去年 3 月、專注于構(gòu)建視覺多模態(tài)基礎(chǔ)模型及應(yīng)用的生成式 AI 初創(chuàng)公司不斷出現(xiàn)在人們的視野中。它就是智象未來(lái)（HiDream.ai），其自主研發(fā)的視覺多模態(tài)基礎(chǔ)模型實(shí)現(xiàn)了不同模態(tài)之間的生成轉(zhuǎn)換，支持文生圖、文生視頻、圖生視頻和文生 3D，并推出了一站式 AI 圖像和視頻生成平臺(tái)「Pixeling 千象」供社會(huì)大眾上手使用。

體驗(yàn)地址：www.hidreamai.com

自智象大模型 2023 年 8 月上線以來(lái)，期間歷經(jīng)數(shù)次迭代與打磨，通過(guò)優(yōu)化基礎(chǔ)模型來(lái)深挖、拓展文生圖和文生視頻等 AIGC 能力。尤其是在視頻生成領(lǐng)域，支持的生成時(shí)長(zhǎng)從最開始的 4 秒增加到了 15 秒，成像效果也肉眼可見地更優(yōu)。

如今，智象大模型再次迎來(lái)升級(jí)，基于中文原生的獨(dú)有 DiT 架構(gòu)釋放出更強(qiáng)大、更穩(wěn)定、對(duì)用戶更友好的圖像和視頻生成能力，包括更具美感和藝術(shù)性的圖像生成、圖像中文字嵌入、分鐘級(jí)視頻生成等。

所有這些圖像和視頻生成新技能的展示，離不開智象未來(lái)在多模態(tài)視覺生成領(lǐng)域的技術(shù)積累和持續(xù)創(chuàng)新。

生成效果持續(xù)提升

更強(qiáng)大基模能力是引擎

智象大模型從一開始便瞄準(zhǔn)了文本、圖像、視頻、3D 的聯(lián)合建模，通過(guò)交互式生成技術(shù)實(shí)現(xiàn)精準(zhǔn)可控的多模態(tài)內(nèi)容生成，構(gòu)筑強(qiáng)大的基模能力，讓用戶在其文生圖、文生視頻 AIGC 平臺(tái)中有更好的創(chuàng)作體驗(yàn)。

此次智象大模型 2.0 的整體升級(jí)，相較于 1.0 版本在底層架構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上均有質(zhì)的變化，由此帶來(lái)了文本、圖像、視頻和 3D 多模能力的又一次飛躍和交互體驗(yàn)上的切實(shí)提升。

可以說(shuō)，升級(jí)后的智象大模型在圖像、視頻生成領(lǐng)域迎來(lái)了全方位加強(qiáng)，并為多模態(tài)大模型創(chuàng)作一站式 AIGC 生成平臺(tái)注入了更加強(qiáng)勁的驅(qū)動(dòng)力。

文生圖技能再進(jìn)化

有了更高層次的「追求」

作為 AIGC 的一站式生成平臺(tái)，文生圖是文生視頻的前提和重要的技術(shù)壁壘。因此智象未來(lái)在文生圖方向上寄予了很高的預(yù)期，以自己的節(jié)奏推進(jìn)更多樣性功能、更逼真視覺效果以及更友好用戶體驗(yàn)。

經(jīng)過(guò)了一系列針對(duì)性調(diào)整和優(yōu)化，智象大模型 2.0 文生圖能力相較以往版本顯著改進(jìn)，并從多個(gè)外在呈現(xiàn)效果上很容易看出來(lái)。

首先，智象大模型 2.0 生成的圖像更有美感、更具藝術(shù)性。當(dāng)前的文生圖大模型在語(yǔ)義理解、生成圖像結(jié)構(gòu)和畫面細(xì)節(jié)等較為直觀的方面可以做得很好，但在質(zhì)感、美感、藝術(shù)性等偏感官方面可能無(wú)法讓人滿意。因此，追求美感成為了此次文生圖升級(jí)的重點(diǎn)。究竟效果如何呢？我們可以來(lái)看下面兩個(gè)示例。

第一個(gè)示例輸入的 Prompt 為「一個(gè)戴著巨大帽子的小女孩，帽子上有很多城堡，花草樹木，鳥類，五顏六色，特寫，細(xì)節(jié)，插畫風(fēng)格」。

第二個(gè)示例輸入的 Prompt 為「綠色植物葉子特寫照片，深色主題，水滴細(xì)節(jié)，移動(dòng)壁紙」。

生成的兩張圖像，無(wú)論是構(gòu)圖色調(diào)，還是細(xì)節(jié)豐富度，看上去都有一種讓人眼前一亮的感覺，這些都極大地拉升了整體畫面美感。

除了讓生成的圖像看上去更美之外，生成圖像的相關(guān)性也更強(qiáng)。這也是圖像生成發(fā)展到一定階段后，大家非常關(guān)注的一個(gè)方面。

為了提升生成圖像的相關(guān)性，智象大模型重點(diǎn)強(qiáng)化了對(duì)一些復(fù)雜邏輯的理解，比如不同的空間布局、位置關(guān)系、不同類型的物體、生成物體的數(shù)量等，這些都是實(shí)現(xiàn)更高相關(guān)性的重要因素。一番調(diào)教下來(lái)，智象大模型可以輕松搞定包含多物體、多位置分布、復(fù)雜空間邏輯的圖像生成任務(wù)，更好地滿足現(xiàn)實(shí)生活中用戶的實(shí)際需求。

我們來(lái)看下面三個(gè)需要對(duì)不同物體、空間位置關(guān)系進(jìn)行深刻理解的生成示例。結(jié)果表明，對(duì)于包含復(fù)雜邏輯的長(zhǎng)短文本 Prompt，文生圖現(xiàn)在都能輕松搞定。

第一個(gè)示例輸入的 Prompt 為「廚房桌子上有三個(gè)裝滿水果的籃子。中間的籃子里裝滿了青蘋果。左邊的籃子里裝滿了草莓。右邊的籃子里滿是藍(lán)莓。籃子后面是一只白色狗。背景是一面青綠色的墻壁，上面有彩色的文字 'Pixeling v2'」。

第二個(gè)示例輸入的 Prompt 為「右邊是一只貓，左邊是一只狗，中間是一個(gè)綠色的立方體放在一個(gè)藍(lán)色的球上」。

第三個(gè)示例輸入的 Prompt 為「在月球上，一名宇航員騎著一頭牛，穿著粉色芭蕾裙，手拿著藍(lán)色傘。牛的右邊是一只戴著高頂帽的企鵝。底部寫著文字 “HiDream.Al”」。

同時(shí)，圖像中嵌入文字的生成更加準(zhǔn)確、高效，這一海報(bào)或營(yíng)銷文案中使用比較多的功能得到加強(qiáng)。

在技術(shù)實(shí)現(xiàn)上，生成圖像中嵌入文字需要大模型深刻理解輸入的 Prompt 中視覺外觀描述和精準(zhǔn)文字內(nèi)容，從而在保證圖像整體美感和藝術(shù)性的同時(shí)實(shí)現(xiàn)對(duì)文字內(nèi)容的精準(zhǔn)刻畫。

在接受機(jī)器之心的專訪時(shí)，智象未來(lái) CTO 姚霆博士提到，對(duì)于此類任務(wù)，以往版本很多時(shí)候無(wú)法生成，即便能生成也存在問(wèn)題，在生成的字符或者準(zhǔn)確性上都有欠缺。現(xiàn)在這些問(wèn)題得到了很好地解決，智象大模型實(shí)現(xiàn)了圖像中長(zhǎng)文本的嵌入生成，最多可以做到幾十個(gè)單詞。

下面從左到右三個(gè)生成示例展示出了很好的文字嵌入效果，尤其是圖右準(zhǔn)確無(wú)誤地嵌入了二十幾個(gè)單詞及標(biāo)點(diǎn)符號(hào)。

可以說(shuō)，此次智象大模型的文生圖功能在行業(yè)中實(shí)現(xiàn)了行業(yè)引領(lǐng)的效果，為視頻生成打下了關(guān)鍵的牟定基礎(chǔ)。

視頻生成邁入分鐘級(jí)

如果說(shuō)升級(jí)后的智象大模型 2.0 在文生圖方向做到了穩(wěn)扎穩(wěn)打，那么在文生視頻方向則迎來(lái)了跨越式突破。

去年 12 月，智象大模型的文生視頻打破了 4 秒時(shí)長(zhǎng)限制，做到了支持 15 秒鐘以上的生成時(shí)長(zhǎng)。半年過(guò)去了，文生視頻在時(shí)長(zhǎng)、畫面自然度、內(nèi)容和角色一致性上均有顯著提升，而這要?dú)w功于其自研了一套成熟的 DiT 架構(gòu)。

相較于 U-Net，DiT 架構(gòu)靈活度更高，且能增強(qiáng)圖像、視頻的生成質(zhì)量。Sora 的出現(xiàn)更直觀地驗(yàn)證了這一點(diǎn)，采用此類架構(gòu)的擴(kuò)散模型表現(xiàn)出了天然生成高質(zhì)量圖像和視頻的傾向，并在可定制化、生成內(nèi)容可控性方面具有相對(duì)優(yōu)勢(shì)。對(duì)于智象大模型 2.0 而言，其采用的 DiT 架構(gòu)又有一些獨(dú)特的地方。

我們知道，DiT 架構(gòu)的底層實(shí)現(xiàn)都是基于 Transformer，智象大模型 2.0 在整個(gè) Transformer 網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)的構(gòu)成和訓(xùn)練策略上采用完全自研的模塊，尤其在網(wǎng)絡(luò)訓(xùn)練策略上下足了功夫。

首先，Transformer 網(wǎng)絡(luò)結(jié)構(gòu)采用了高效的時(shí)空聯(lián)合注意力機(jī)制，不僅契合了視頻兼具空間域和時(shí)間域的特征，而且解決了傳統(tǒng)注意力機(jī)制在實(shí)際訓(xùn)練過(guò)程中速度跟不上的難題。

其次，AI 視頻任務(wù)中的長(zhǎng)鏡頭生成對(duì)訓(xùn)練數(shù)據(jù)的來(lái)源、篩選提出了更高要求。因此，智象大模型最多支持幾分鐘甚至十幾分鐘視頻片段的訓(xùn)練，這樣一來(lái)，直接輸出分鐘級(jí)時(shí)長(zhǎng)的視頻有了可能。同時(shí)，對(duì)分鐘級(jí)視頻內(nèi)容的描述也是比較困難的事情，智象未來(lái)自研了視頻描述生成的 Captioning Model，實(shí)現(xiàn)了詳細(xì)且精準(zhǔn)的描述輸出。

最后在訓(xùn)練策略上，由于長(zhǎng)鏡頭視頻數(shù)據(jù)有限，因此智象大模型 2.0 使用了不同長(zhǎng)度的視頻片段，進(jìn)行視頻和圖片數(shù)據(jù)的聯(lián)合訓(xùn)練，并動(dòng)態(tài)地改變不同長(zhǎng)度視頻的采樣率，進(jìn)而完成長(zhǎng)鏡頭訓(xùn)練，同時(shí)在訓(xùn)練時(shí)還會(huì)根據(jù)用戶反饋數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)以進(jìn)一步優(yōu)化模型性能。

也因此，更強(qiáng)大自研 DiT 架構(gòu)為此次文生視頻效果的進(jìn)一步提升提供了技術(shù)支撐。

現(xiàn)在，智象大模型 2.0 支持生成的視頻時(shí)長(zhǎng)從 15 秒左右提升到了分鐘級(jí)，達(dá)到了業(yè)界較高水平。

在視頻時(shí)長(zhǎng)邁入分鐘級(jí)之外，可變時(shí)長(zhǎng)和尺寸也是此次文生視頻功能升級(jí)的一大看點(diǎn)。

當(dāng)前視頻生成模型通常是固定生成時(shí)長(zhǎng)，用戶無(wú)法選擇。智象未來(lái)將生成時(shí)長(zhǎng)的選擇權(quán)開放給了用戶，既可以讓他們指定時(shí)長(zhǎng)，也能夠根據(jù)輸入的 Prompt 內(nèi)容進(jìn)行動(dòng)態(tài)判斷。如果比較復(fù)雜則生成較長(zhǎng)視頻，比較簡(jiǎn)單則生成較短視頻，通過(guò)這樣一個(gè)動(dòng)態(tài)過(guò)程來(lái)自適應(yīng)地滿足用戶的創(chuàng)作需求。生成視頻的尺寸也可以按需定制，對(duì)用戶使用非常友好。

此外，整體畫面觀感變得更好，生成視頻中物體的動(dòng)作或運(yùn)動(dòng)更加自然流暢，細(xì)節(jié)渲染更加到位，并支持了 4K 超清畫質(zhì)。

短短半年時(shí)間，與以往版本相比，升級(jí)后的文生視頻功能用「脫胎換骨」來(lái)形容也不為過(guò)。不過(guò)在姚霆博士看來(lái)，當(dāng)前無(wú)論是智象未來(lái)還是其他同行，視頻生成大部分仍處于單鏡頭階段。如果對(duì)標(biāo)自動(dòng)駕駛領(lǐng)域的 L1 到 L5 階段，文生視頻大致處于 L2 階段。此次借助基模能力的升級(jí)，智象未來(lái)想要追求更高質(zhì)量的多鏡頭視頻生成，也邁出了探索 L3 階段的關(guān)鍵一步。

智象未來(lái)表示，迭代后的文生視頻功能將在 7 月中旬上線使用。大家可以狠狠地期待一波了！

寫在最后

成立不到一年半的時(shí)間，無(wú)論是基礎(chǔ)模型能力的持續(xù)迭代，還是文生圖、文生視頻實(shí)際體驗(yàn)的提升，智象未來(lái)在視覺多模態(tài)生成這一方向上走得既穩(wěn)又快，并收獲了大量 C 端和 B 端用戶。

我們了解到，智象未來(lái) C 端用戶單月訪問(wèn)量超過(guò)了百萬(wàn)，生成 AI 圖像和視頻的總數(shù)量也超過(guò)千萬(wàn)。低門檻、好應(yīng)用構(gòu)成了智象大模型的特質(zhì)，并基于它打造了最適合社會(huì)大眾使用的首款 AIGC 應(yīng)用平臺(tái)。

在 B 端，智象未來(lái)積極與中國(guó)移動(dòng)、聯(lián)想集團(tuán)、科大訊飛、上影集團(tuán)、慈文集團(tuán)、神州數(shù)碼、央視網(wǎng)、印象筆記、天工異彩、杭州靈伴等企業(yè)達(dá)成戰(zhàn)略合作協(xié)議，深化模型應(yīng)用場(chǎng)景，將模型能力延展到包括運(yùn)營(yíng)商、智能終端、影視制作、電子商務(wù)、文旅宣傳和品牌營(yíng)銷在內(nèi)的更多行業(yè)，最終在商業(yè)化落地過(guò)程中發(fā)揮模型潛能并創(chuàng)造價(jià)值。

目前，智象大模型擁有大約 100 家頭部企業(yè)客戶，并為 30000 + 小微企業(yè)客戶提供了 AIGC 服務(wù)。

在智象大模型 2.0 發(fā)布之前，智象未來(lái)已經(jīng)聯(lián)合中國(guó)移動(dòng)咪咕集團(tuán)推出了國(guó)民級(jí) AIGC 應(yīng)用「AI 一語(yǔ)成片」，不僅為普通用戶提供零基礎(chǔ) AI 視頻彩鈴創(chuàng)作功能，還助力企業(yè)客戶生成豐富的品牌及營(yíng)銷視頻內(nèi)容，讓企業(yè)擁有屬于自己的彩鈴品牌，讓我們看到了視頻生成融合行業(yè)場(chǎng)景的巨大潛力。

此外，AI 生態(tài)也是大模型廠商發(fā)力的重要陣地。在這方面，智象未來(lái)持開放的態(tài)度，聯(lián)合聯(lián)想集團(tuán)、科大訊飛、神州數(shù)碼等大客戶、小型開發(fā)團(tuán)隊(duì)和獨(dú)立開發(fā)者共建包括視頻生成在內(nèi)的廣泛 AI 生態(tài)，覆蓋用戶的更多元化需求。

2024 年被視為大模型應(yīng)用落地元年，對(duì)所有廠商來(lái)說(shuō)都是關(guān)鍵的發(fā)展節(jié)點(diǎn)。智象未來(lái)正在圍繞更強(qiáng)大的基模能力做深文章。

一方面，在統(tǒng)一的框架中強(qiáng)化圖像、視頻、3D 多模態(tài)的理解與生成能力，比如在視頻生成領(lǐng)域繼續(xù)優(yōu)化底層架構(gòu)、算法、數(shù)據(jù)以求得時(shí)長(zhǎng)、質(zhì)量上的更大突破，成為推動(dòng)未來(lái)通用人工智能的不可或缺的一部分；另一方面在用戶體驗(yàn)、創(chuàng)新應(yīng)用、行業(yè)生態(tài)等多個(gè)方向發(fā)力，擴(kuò)大自身的行業(yè)影響力。

搶占視頻生成賽道的高地，智象未來(lái)已經(jīng)做好了充足準(zhǔn)備。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕