人工智能的春天已至,未來屬于 AIGC。繼業界出現 ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、圖像、文本生成聲音等模型之后,Google 最新帶來了一種新的人工智能系統,讓 AI 發力音樂圈,該系統可以在給定文本描述的情況下自動生成任何類型的音樂,為此,Google 還取了一個言簡意賅的名字——MusicLM。
不過,值得注意的是,因為擔心該系統存在一些潛在風險,Google 當前雖然已經研發了該系統,但暫時還沒有對外公開發布它的計劃。
MusicLM 的神奇之處
只聞其聲不見其人,也為 MusicLM 帶來了一些神秘感。不過,近日,Google 發布了一篇《MusicLM: Generating Music From Text》學術論文,揭開了 MusicLM 的面紗。
據論文介紹,MusicLM 是一個從文本描述中生成高保真音樂的模型,它將有條件的音樂生成過程描述為一個層次化的序列到序列的建模任務,其生成的音樂頻率為 24kHz,在幾分鐘內保持一致。
層次化的序列到序列的建模任務
在業界,MusicLM 并不是第一個 AI 音樂生成器,也正如外媒 TechCrunch 指出的那樣,此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等項目都已經實現了音樂生成功能,那么,MusicLM 到底特別在哪里?
其實,MusicLM 的與眾不同主要體現在以下幾點:
一、MusicLM 的訓練數據無可比擬
上述提到的幾種模型往往由于技術限制和有限的訓練數據,無法制作出作曲特別復雜或高保真度的歌曲。
相比之下,MusicLM 是在 280,000 小時的音樂數據集上進行了訓練而成,由此可以幫助模型本身創造出令人稱奇的多樣性、深度的音樂。
二、MusicLM 可以直接根據文本提示生成長達幾分鐘的音樂片段
只要提供一段描述,MusicLM 模型可以文本自動生成符合場景的音樂,譬如提供的描述如下:
雷鬼舞曲和電子舞曲的融合,具有太空般的、另一個世界的聲音。誘發在太空中迷失的體驗,音樂將被設計為喚起一種奇跡和敬畏感,同時又是可舞蹈的。
自動生成的音樂如下:
三、MusicLM 模型還可以基于已有的旋律轉換為其他樂器,甚至模擬人聲
除了以上,Google 研究人員表明,MusicLM 還可以建立在現有的旋律之上,即無論是哼唱、演唱、吹口哨還是在樂器上,MusicLM 都可以繼續創建音樂。
與此同時,根據官方提供的示例顯示,MusicLM 模型能夠按順序編寫多個描述(例如“冥想時間”,“醒來時間”,“跑步時間”,“100% 給予時間”),并創建一種以“故事”或長達幾分鐘的敘事為背景的旋律,這種非常適合電影配樂。
譬如,想要一個以下敘事內容的背景音樂:
電子游戲中播放的歌曲 (0:00-0:15)
在河邊播放的冥想歌曲(0:15-0:30)
火 (0:30-0:45)
煙花 (0:45-0:60)
MusicLM 在理解了文本內容之后,生成的旋律如下所示:
MusicLM 也能通過圖片和文本描述的組合進行指導,或生成由特定類型的樂器“播放”的音頻。甚至可以設置 AI “音樂家”的經驗水平,系統可以創作受地點、時代或要求啟發的音樂(例如鍛煉的勵志音樂)等等。
基于以上,很多網友在了解論文以及通過示例觀摩之后,給予了高度評價:
哇,這對我來說比 ChatGPT 還有吸引力。
我會說,谷歌幾乎解決了音樂生成問題。
Google 研究員表示,「實驗表明,MusicLM 在音頻質量和對文本描述的遵守方面都優于以前的系統?!?/span>
MusicLM 的不足
不容忽視的是,MusicLM 還有一個強大之處就是可以模擬人聲。
不過,MusicLM 當前還并不是一個成熟的模型,就以模擬人聲為例,雖然它可以正確處理聲音的音調,但是質感還存在一個問題。此外,很多自動生成的“歌詞”有些含糊不清,也許有點像某人在哼歌,也許好像在聽英文歌,但實際上或許并非如此,聽眾甚至會一度懷疑自己的耳朵聽到的究竟是什么。
Google 的擔憂
整體而言,這些由 AI 生成的歌曲聽起來像是人類藝術家可能創作出來的,普通聽眾往往難以分辨到底是 AI 創作還是人類創作。
或也正是基于這一方面的考慮,Google 在開發這款模型之際也猶豫了,在論文中,其表示,“我們目前沒有發布該模型的計劃”。
具體原因和此前面對 ChatGPT 強大的競爭壓力時,Google 謹慎的態度一樣,其擔心像 MusicLM 這樣的模型將會帶來許多道德挑戰,包括將訓練數據中的受版權保護的材料合并到生成的歌曲中。
在一項實驗中,Google 研究人員發現系統生成的音樂中約有 1% 是直接從其訓練的歌曲中復制的,這個閾值顯然足以阻止他們以當前狀態發布 MusicLM 這款模型。
“我們承認與用例相關的創意內容可能有會被盜用的風險,”該論文的共同作者寫道,“我們強烈強調,未來需要開展更多工作,以應對與音樂創作相關的這些風險。
不過,Google 也表示,它正在公開發布一個包含 5500 個音樂文本組成的數據集 MusicCaps,其中有人類專家顧問提供豐富的文本描述,有助于訓練和評估其他音樂 AI。也許在不久的將來,待 Google 摸出合適的道路,我們可以真正地一見 MusicLM 的風采。
關于 MusicLM 的更多詳情可見:https://google-research.github.io/seanet/musiclm/examples/
參考鏈接:
https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/