文:王智遠 | ID:Z201440我對生成式AI特別感興趣。
這個領域涵蓋文本、圖片、聲音、視頻和3D模型五個方面。我猜你也聽說過,甚至用過一些;對我來說,音樂很重要,因為每天差不多有1/12的時間都在聽歌。有人用AI技術翻唱一首孫燕姿的歌曲,不少人聽完后表示,唱的跟本人一樣好聽,本人還在社交媒體上表達說:擁抱AI,人類比不過AI,做好自己就行。緊接著一個月內容,市面冒出來上千首用AI技術翻唱的歌,這些歌橫跨了幾十年的流行音樂。當時,我還研究一陣。發現這些歌曲用音色替換的技術制作而成,該技術基于so-vits-svc開源項目開發,門檻非常低,你要感興趣,也能學會。但后來,由于工作關系加上下半年AIGC(AI生成內容)技術爆炸式發展,我的興趣點也就跟著轉移了。不過,最近發現,AI音樂技術又有了新的進步。
進步在哪呢?
以前用so-vits-svc工具時,要懂一些基礎、且專業知識。像怎么采集音頻、編輯波形、把人聲伴奏分開,以及音頻訓練推理技巧等,這些是處理和生成音頻文件必要的基礎。如果你要用自己的聲音來做歌曲,得先上傳幾段自己的聲音,讓系統學習。這個所謂“訓練”過程會電腦顯卡負荷很大,通常持續好幾個小時。比如有8種不同的編碼器,每種都適用于不同的情景,有些插件不提供預先訓練的模型,你還得自己訓練一番;所以,看似簡單的步驟對小白來說,也有點復雜。3月22日,位于美國加州舊金山的一家人工智能公司Anthropic,他們開發的音頻軟件Suno AI進行一次重大升級,幾個簡短文字,一閃而過的靈感,立馬變成一首歌曲。Suno AI的官網:https://app.suno.ai/?可以先用谷歌注冊一個賬號,然后點擊右上角的“make a song”按鈕,接下來點擊“create”,就能進入創作頁面了。目前官網上,有很多用戶上傳了他們用AI創作的歌曲,可以隨便聽聽,其中不少華人創作的。●Pic?https://app.suno.ai官網有一首是用“中國傳統民樂、慢板、空靈、天使之音”幾個關鍵詞生成的全新版本《水調歌頭(明月幾時有)》(和我們熟悉的《但愿人長久》不一樣的版本)。還有一首用“歌劇”這個提示詞創作的《宮保雞丁》,歌詞,居然是一整套宮保雞丁的菜譜,簡直不要太離譜。suno有免費模式可以使用,每日贈送50積分,而每次生成都會一起生成2首歌,每首歌小耗5積分,性價比比較高。也有專業計劃和尊貴計劃,前者8美金/月;附帶2500積分(500首歌曲);后者24美金/月,附增10,000 個積分(2.000 首歌曲)。如果不是專業選手使用,免費的玩玩還可以,對了,我特別找了下,國內有個網站跟它挺像,功能差不多,還能免費試用,不過,如果要充值,得注意真假。
只要提供一些簡單的信息,比如,你想要的音樂風格、描述和氛圍等關鍵詞,然后點擊“創建”,剩下的交給AI來完成,它能把歌詞曲調都幫你弄好。這個模式下,你可以詳細輸入想要的歌詞、音樂類型、風格和氛圍等,AI會根據這些信息來為你創作歌曲。過程也比較快,基本上幾秒鐘就能完成。而且,在創作頁面如果開啟了Instrumental(器樂)選項,它還會為你制作一首不含歌詞的純音樂;個人而言,我更喜歡自定義模式。
02
問題來了:很多人說我不會寫歌詞流派怎么辦?
也不用擔心,用AI工具生成歌詞后再給Suno,這樣效果會更好。我總結了一下,一首歌曲的有效提示詞包括四個因素,分別是音樂風格、情緒、樂器,以及節奏。比如,通俗易懂的流行風(Pop)、強調節奏的搖滾風(Rock)、即興演奏爵士風(Jazz)、歐洲傳統巴洛克的浪漫古典風(Classical)。以及電子風(Electronic)、嘻哈音樂(Hip Hop/Rap)、R&B(Rhythm and Blues)、鄉村音樂(Country)、民謠音樂(Folk)等等。情緒你應該知道,是歡快、悲傷、浪漫還是激動人心的?樂器方面,你傾向于鋼琴、吉他、小提琴還是鼓?至于節奏,有快節奏、慢節奏適中的節奏等等。如果你想要一首活力四射的流行電子舞曲,就跟AI說,我想寫一首歡快、流行、電子、舞曲、快節奏的歌曲;假如你想要一首溫柔又浪漫的古典鋼琴曲,那就告訴AI,你想要一首浪漫、古典、用鋼琴彈奏的,而且節奏要慢的曲子。如果你想聽一首讓人陷入深思的悲傷爵士薩克斯曲,就用這些關鍵詞:憂郁、爵士、薩克斯風、即興演奏,節奏保持在中等。對于那種能讓人熱血沸騰的搖滾吉他曲,你可以這么說:我想要一首充滿激情的搖滾歌,用電吉他彈奏,節奏要快;而如果你希望聽到一首暖心的民謠木吉他曲,那就描述成:想聽一首溫馨的民謠,用木吉他演奏,風格輕柔。你可以自由地混搭各種音樂風格,像電子即興演奏、鋼琴土嗨這樣的組合,只有想不到沒有做不到,寫的越詳細,生成的越精準,你還可以選擇直接在Suno上填入這些關鍵詞,或利用AI工具,先生成好,然后把結果復制粘貼進去,這樣,也能輕松創作出符合你想法的音樂了。隨機生成是系統自帶,自己填寫顧名思義,是寫好再給它,我最近這幾天一直讓AI幫我寫詞。想快速形成,就用「角色扮演」。基礎prompt是這樣:想象你是個音樂天才,在音樂界深耕了20年。譜曲和寫詞是你的專業,現在,我希望你能當作曲家,用中文來創作。我們要的風格是流行而且有治愈感的,就像周杰倫的《稻香》那樣,你給我寫一段歌詞。當它給完之后,你還可以說:你可以做得更好。歌詞要有節奏感,要能感受到情感波動,既美又簡潔,避免用那些聽起來像口號的詞句。原創要自己設定情節并總結,然后投喂給AI,讓AI按照自己的設定去寫;仿寫是模仿對標歌曲的內容大綱、寫作風格、語言特色等。你可以說,幫我寫一個歌詞,類似于李榮浩的《老街》,或者某某的什么歌。對了,也許原歌詞所對應的歌曲是流行風,你也可以投喂給Suno,讓它生成搖滾風,也不是不可以。一首完整的歌曲,它由前奏、詩句(或稱為節)、副歌、橋段、尾奏五個部分組成,有點像寫小說時會有的開場、發展、高潮和結尾四個環節。劃分結構后,按部就班地展開創作。這個過程中,你可以采用各種不同的技巧,比如押韻法。押韻法本身就有很多種形式,包括不限于ABAB、AABB、ABBA、ABCA等模式。除押韻法以及增加歌詞的韻律節奏感外,還可以要求AI多增加一些技巧,以及情感深度在里面,比如,用描述法,或者比喻,反復疊唱,以及具體抽象的結合等。所以,AI寫歌詞本身和AI進行其他領域的創作底層相似,唯一區別在于,一旦你理解了一些特定領域專業術語,掌握它的難度就會大大降低。不過,目前這個平臺最多只能生成兩分鐘的歌曲,你給的詞過多,后面也未必能用上,但也不要擔心,它提供了一個連續創作功能。你可以選擇一首歌的任何部分,繼續創作接下來的部分,然后把它們組合起來,就能突破兩分鐘的限制,創作出一首完整的歌曲。
03?
生成音樂后你可以以下載(視頻,音頻)分享,也可以選擇公開。
說回Suno這個平臺,官方宣稱目前不少知名藝術家在用,但主要用戶群體依然是沒有經驗的普通人。的確,最新v3版本在音樂質量、使用提示詞上都有明顯提升。而且,這一版本他們還搞了AI音樂水印系統,如此也能保護用戶作品不被抄襲,防止別人濫用平臺上的音樂去分發,目前我已經看到不少人用AI音樂開始賺錢了。雖然這聽起來不錯,但我作為一個深度AI使用者,和深度聽歌人士,還是想說幾個問題,或幾個特性。一方面,平臺簡單提示詞的確很棒,AI有更多自由度,但同時也意味著我們控制得少了,有時候,我給的提示詞AI可能不會完全按照原意去寫歌詞。另一方面在功能上,雖然我不是專業音樂人,但覺得AI音樂應該有一些基礎、或專業功能,比如像音色克隆、轉midi、分軌等。轉midi和分軌技術上比較難,但音色克隆(SVC)相對容易些,已有的開源模型也在不斷進化,稍作調整就能集成進去,這也意味著用戶只要上傳一段自己的聲音,就能定制一首歌,這肯定會吸引不少人付費。這好比美顏相機的「美顏功能」,你不能總「一鍵美顏」,還要增加一些大眼睛、瘦臉、磨皮等功能。我用so-vits-svc時不同,它部分插件看似全英文比較麻煩,但可以訓練人聲,還可以變換歌曲場景等等,所以,從專業角度來看,Suno更像一鍋出的大雜燴。雖然還不夠完美,有點粗糙,但不可否認,這種工業化生產的音樂,已經占據了視頻和流媒體平臺大部分的流量。換句話說,就質量而言,現在AI生成的好音樂已經可以媲美一般的音樂創作者了,盡管對于我們不熟悉的音樂流派來說,可能還是聽不出太多門道。目前Suno AI官網沒有公開技術文檔,我也不清楚模型結構,但可以看出,v3版本在支持中文方面比上一版進步很多,盡管偶爾會有電音;不過,模型迭代是必要的,畢竟遵循AI領域的一個通用規律即:模型越大,效果越好。
04?
你聽說了嗎?
國內昆侖萬維推出了「天工AI」搜索后,國外,AI搜索初創公司Perplexity AI一飛沖天。Perplexity AI的創始人說,他對Suno這家公司很有信心,覺得它有潛力成為下一個AI領域的重磅玩家。我特意去了解了下這家公司,原來Suno四個創始人之前在劍橋一個叫Kensho Technologies的公司共事的,他們中有兩個是業余音樂愛好者。他們在Kensho的時,主要開發一種AI技術,用來把上市公司的電話會議內容轉錄下來;后來,他們發現雖然AI在圖像和文本生成方面搞出了不少大動作,音頻這塊卻相對冷清。于是,就萌生了自己搞點動靜的念頭。盡管有人說他們在炒作,但實不可否認,他們的產品更新快,音質也挺好的;就連Perplexity AI的老板都說,現在他聽歌更傾向于用Suno而不是Spotify。從個人使用角度來說,我自己這一周一直在用,我并不關注它到底是否炒作,或者割韭菜,至少它滿足了我的「耳感」,讓我愿意去嘗試這些新奇的東西。
我覺得,未來個人創作音樂的熱潮會跟寫作一樣,爆發式增長,市場角色已經從單純的供給方轉變為了供需雙方互動,這意味著更多人可以參與到創作中來,甚至出現共創的模式。在國內,音頻AI領域也有不少實力派玩家,比如科大訊飛、騰訊音樂娛樂集團(TME)、網易云音樂等,它們在AI音樂上的嘗試雖然步伐稍顯緩慢,但也在穩步前進。根據Suno的一個創始人所說,高質量音頻采樣率一般是44kHz或48kHz,意味著每秒要處理48000個數據點,音樂生成面臨的一個挑戰是,不像文字那樣可以離散處理,音頻數據處理要復雜得多。所以,看似文生圖模型大爆發,但在音視頻這塊,類似產品還只是剛剛起步,或者說它們根本不一樣,真心希望國內企業能夠加快發展步伐,推出更多像Suno這樣的創新產品。
總結而言:
音樂界也終將被AI改變命運,只有親身體驗過,你才會驚嘆于自己竟能成為一名音樂家??烊ピ囋嚢?。我開通一個新專欄叫《AI產品操作手冊》;如果,你對如何將AI轉化為先進生產力感興趣,歡迎點擊下方圖片訂閱。
里面有理論,有實操,訂閱后,內容每天通過微信服務號進行推送,相當于,我帶著內容跟你匯報,歡迎找我聊聊你的工作方法,我也樂意,把經驗分享出來。
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。