精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
這段音頻火爆外網(wǎng)!文字、圖片一鍵生成逼真音效,音頻界AIGC來了


MLNLP社區(qū)是國內(nèi)外知名的機器學習與自然語言處理社區(qū),受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
社區(qū)的愿景是促進國內(nèi)外自然語言處理,機器學習學術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉(zhuǎn)載自 | 機器之心

如今的 AI 技術(shù)發(fā)展堪稱「神奇」,文字、圖片竟能一鍵直接生成逼真音效,這就是浙大、北大聯(lián)合火山語音推出的新模型 Make-An-Audio。

近期 AIGC 如同上了熱搜一般,火熱程度居高不下,當然除了名頭格外響亮,突破也是絕對斐然:輸入自然語言就可自動生成圖像、視頻甚至是 3D 模型,你說意不意外?

但在音頻音效的領(lǐng)域,AIGC 的福利似乎還差了一些。主要由于高自由度音頻生成需要依靠大量文本 - 音頻對數(shù)據(jù),同時長時波形建模還有諸多困難。為了解決上述困難,浙江大學與北京大學聯(lián)合火山語音,共同提出了一款創(chuàng)新的、文本到音頻的生成系統(tǒng),即 Make-An-Audio。其可以將自然語言描述作為輸入,而且是任意模態(tài)(例如文本、音頻、圖像、視頻等)均可,同時輸出符合描述的音頻音效,廣大網(wǎng)友很難不為其可控性以及泛化性點贊。

  • 論文鏈接:https://arxiv.org/abs/2301.12661

  • 項目鏈接:https://text-to-audio.github.io

短短兩天,Demo 視頻在 Twitter 上獲得了 45K 的播放量。

 圖 1:研究團隊公布的演示視頻

2023 年除夕后,以 Make-An-Audio、 MusicLM 等大量音頻合成文章涌現(xiàn),48 小時內(nèi)已經(jīng)有 4 篇突破性的進展。

圖 2:網(wǎng)友評論 1

廣大網(wǎng)友們紛紛表示,AIGC 音效合成將會改變電影、短視頻制作的未來。

圖 3:網(wǎng)友評論 2

圖 4:網(wǎng)友評論 3

更有網(wǎng)友發(fā)出這樣的感嘆:「audio is all you need……」

圖 5:網(wǎng)友評論 4

聽覺效果展示

話不多說直接看效果,根據(jù)文本生成音效原來也可以如此便捷順暢。

文本 1:a speedboat running as wind blows into a microphone

文本 2:fireworks pop and explode

是不是也一度因破損音頻修復(fù)而大傷腦筋?Make-An-Audio 模型一出,這事兒就變得簡單多了。

修復(fù)前

修復(fù)前音頻

修復(fù)后

修復(fù)后音頻

通過理解圖片生成音效,也不是不可以。

圖片 1

轉(zhuǎn)化音頻

圖片 2

轉(zhuǎn)化音頻

根據(jù)視頻內(nèi)容生成對應(yīng)音效,這款模型也可以輕松做到。

視頻 1

轉(zhuǎn)化音頻

視頻 2

轉(zhuǎn)化音頻

模型內(nèi)在技術(shù)原理

深度解析「網(wǎng)紅」模型的神奇內(nèi)在,還要回到音頻 - 自然語言對數(shù)據(jù)稀少的客觀問題上,對此浙大北大聯(lián)合火山語音團隊協(xié)同兩大高校共同提出了Distill-then-Reprogram 文本增強策略,即使用教師模型獲得音頻的自然語言描述,再通過隨機重組獲得具有動態(tài)性的訓(xùn)練樣本。

具體來說,在 Distill 環(huán)節(jié)中,使用音頻轉(zhuǎn)文本與音頻 - 文本檢索模型,找到語言缺失 (Language-Free) 音頻的自然語言描述候選 (Candidate),通過計算候選文本與音頻的匹配相似度,在閾值下取得最佳結(jié)果作為音頻的描述。該方法具有強泛化性,且真實自然語言避免了測試階段的域外文本。「在 Reprogram 環(huán)節(jié)中,團隊從額外的事件數(shù)據(jù)集中隨機采樣,并與當前訓(xùn)練樣本相結(jié)合,得到全新的概念組合與描述,以擴增模型對不同事件組合的魯棒性。」 研究團隊表示。

圖 6:Distill-then-Reprogram 文本增強策略框架圖

如上圖所示,自監(jiān)督學習已經(jīng)成功將圖片遷移到音頻頻譜,利用了頻譜自編碼器以解決長音頻序列問題,并基于 Latent Diffusion 生成模型完成對自監(jiān)督表征的預(yù)測,避免了直接預(yù)測長時波形。

圖 7:Make-An-Audio 模型系統(tǒng)框架圖

此外在研究中團隊還探索了強大的文本條件策略,包括對比式 Contrastive Language-Audio Pretraining (CLAP) 以及語言模型 (LLM) T5, BERT 等,驗證了 CLAP 文本表征的有效與計算友好性。同時還首次使用 CLAP Score 來評估生成的音頻,可以用于衡量文本和生成場景之間的一致性;使用主、客觀相結(jié)合的評估方式,在 benchmark 數(shù)據(jù)集測試中驗證了模型的有效性,展示了模型出色的零樣本學習 (Zero-Shot) 泛化性等。

圖 8:Make-An-Audio 與基線模型主客觀評測實驗結(jié)果

神奇模型的應(yīng)用前景知多少?

總體來看,Make-An-Audio 模型實現(xiàn)了高質(zhì)量、高可控性的音頻合成,并提出了「No Modality Left Behind」,對文本條件音頻模型進行微調(diào) (finetune),即能解鎖對任意模態(tài)輸入的音頻合成 (audio/image/video)。

圖 9:Make-An-Audio 首次實現(xiàn)高可控 X - 音頻的 AIGC 合成,X 可以是文本 / 音頻 / 圖像 / 視頻

在視覺指導(dǎo)的音頻合成上,Make-An-Audio 以 CLIP 文本編碼器為條件,利用其圖像 - 文本聯(lián)合空間,能夠直接以圖像編碼為條件合成音頻。

圖 10:Make-An-Audio 視覺 - 音頻合成框架圖

可以預(yù)見的是,音頻合成 AIGC 將會在未來電影配音、短視頻創(chuàng)作等領(lǐng)域發(fā)揮重要作用,而借助 Make-An-Audio 等模型,或許在未來人人都有可能成為專業(yè)的音效師,都可以憑借文字、視頻、圖像在任意時間、任意地點,合成出栩栩如生的音頻、音效。但現(xiàn)階段 Make-An-Audio 也并不是完美無缺的,可能由于豐富的數(shù)據(jù)來源以及不可避免的樣本質(zhì)量問題,訓(xùn)練過程中難免會產(chǎn)生副作用,例如生成不符合文字內(nèi)容的音頻,Make-An-Audio 在技術(shù)上被定位是 “輔助藝術(shù)家生成”,可以肯定的一點,AIGC 領(lǐng)域的進展確實令人驚喜。

火山語音,長期以來面向字節(jié)跳動各大業(yè)務(wù)線提供全球優(yōu)勢的 AI 語音技術(shù)能力以及全棧語音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù),不斷探索 AI 與業(yè)務(wù)場景的高效結(jié)合,以實現(xiàn)更大的用戶價值。目前其語音識別和語音合成已經(jīng)覆蓋了多種語言和方言,多篇技術(shù)論文入選各類 AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico 等業(yè)務(wù)提供了領(lǐng)先的語音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場景,通過火山引擎開放給外部企業(yè)。

技術(shù)交流群邀請函

△長按添加小助手
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI短視頻制作一本通:文本生成視頻、圖片生成視頻、視頻生成視頻
繼“換臉”刷屏之后,這個AI技術(shù)讓你“一鍵變聲”
“創(chuàng)作者AI助理團”上線!百度公布多項專利,為創(chuàng)作者自動生產(chǎn)
火爆的萬億科技新賽道AIGC 一文讀懂!
AIGC(生成式AI)的行業(yè)發(fā)展趨勢(二)
61頁AIGC專題報告:100個有意思的AI應(yīng)用(附下載)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 永兴县| 禄劝| 格尔木市| 庐江县| 铜山县| 延津县| 冕宁县| 文成县| 中山市| 双柏县| 长海县| 新郑市| 灌阳县| 岳池县| 贵南县| 连南| 元氏县| 黑河市| 蚌埠市| 崇义县| 安阳县| 禹城市| 成武县| 夏津县| 张家口市| 阜新市| 灵寿县| 仪陇县| 绵阳市| 大竹县| 嘉善县| 临夏县| 天全县| 洮南市| 敖汉旗| 化德县| 南充市| 昆山市| 渝中区| 大埔县| 武平县|