機器之心報道
機器之心編輯部
這項技術未來在虛擬人、短視頻玩法、客服服務、直播互動玩法上有著很大的落地空間。
字節跳動智能創作語音團隊 SAMI(Speech, Audio and Music Intelligence)近日發布了新一代的低延遲、超擬人的實時 AI 變聲技術。不同于傳統的變聲,AI 變聲是基于深度學習的聲音轉換(Voice Conversion)技術來實現的,可以實現任意發音人的音色定制,極大程度保留原始音色的特點。
該方案的亮點如下:
從語音合成到聲音轉換:探索更多元的聲音玩法
語音合成作為人工智能的一個重要分支,旨在通過輸入文字,經由人工智能的算法,合成像真人語音一樣自然的音頻,該技術已被廣泛的應用于音視頻創作場景中。而相比語音合成,聲音轉換創造了新的語音交互形式:其不再需要輸入文字,而是根據用戶輸入的說話音頻,將音頻中的音色轉換到目標發音人上,并保持說話內容、韻律情感等一致。相較于輸入文本,輸入音頻包含了更豐富的副語言信息,例如各個段落的情感、抑揚頓挫、停頓等。聲音轉換能夠做到改變音色的同時,將這些副語言信息很好的還原。
同基于深度學習的語音合成一樣,聲音轉換的模型也由聲學模型(acoustic model)和聲碼器(vocoder)組成。聲學模型通過內容編碼器從輸入音頻中提取出發音內容序列,并通過音色編碼器從參考音頻中提取出音色特征,最后通過聲音轉換模型生成帶有輸入音頻內容和參考音頻音色的頻譜;聲碼器負責將聲學模型生成的頻譜還原為能夠被設備直接播放的音頻采樣點:
面向實時場景的聲音轉換模型優化
相較于非實時場景下對完整音頻的聲音轉換,實時聲音轉換有著更加豐富的落地場景。典型的場景包括直播、虛擬人這類實時交互的娛樂場景,變聲的結果需要在很短的延遲內實時流式的生成,才能保證音畫同步。
實時聲音轉換的難點在于:1. 模型在每個時刻只能獲取到很短的未來音頻片段,因此發音內容的正確識別更加困難;2. 流式推理的實時率(計算時長 / 音頻時長)需要穩定小于 1,因此在設計模型時需要更加關注推理性能。這給研發人員帶來了更大的挑戰,一方面需要通過設計合理的模型結構來降低模型感受野和推理延時,另一方面需要盡可能保證變聲的發音內容、音色和音質不受影響。
為了達到上述要求,研究人員對模型進行了一系列改進,使得模型的首包延時壓縮到 250ms 左右。實時聲音轉換的整體框架如下:
對于內容編碼器,研究人員采用細粒度發音提取模塊代替了傳統基于音素后驗概率的方法,使得更多的發音細節、韻律情感能夠被保留下來,且顯著降低了對模型感受野的要求;對于聲音轉換模型,研究人員結合了 chunk 級別的信息編碼和幀級別的自回歸解碼,并引入了基于教師指導的訓練機制,從而確保了生成頻譜的發音、音質和音色足夠好;對于聲碼器,研究人員通過精巧的模型結構設計大大壓縮了感受野,并通過對抗生成訓練提高了生成音頻的自然度。
現實版“柯南領結”:各種復雜場景不在話下
現實的語音交互中往往包含許多復雜的場景,使得現有大部分的 AI 變聲系統的轉換結果變得極不自然。例如,當用戶輸入中包含嘆氣、咳嗽這類聲音時,現有系統傾向于對其過濾而非保留,從而導致用戶想表達的副語言信息的丟失。并且,現有系統的跨域性能較差,從而導致用戶進行多語種 / 方言輸入時,無法轉換出正確的內容。此外,現有系統在低延遲場景下的轉換結果容易出現發音錯誤與音色不穩定的問題。
相較于現有系統,本系統在各個場景下的轉換效果均顯著提升。
SAMI 的新一代 AI 變聲系統對于復雜場景的適應性顯著提升。這項聲音轉換服務可以支持云端在線服務形式輸出,也支持本地化部署。未來在虛擬人、短視頻玩法、客服服務、直播互動玩法上有著很大的落地空間。
目前這項技術已經可以在火山引擎 - 音頻技術下的聲音轉換模塊體驗和開通。針對一些商業化的合作,特別是發音人的音色定制會嚴格審核音色的版權和授權許可。一些實時性要求比較高的業務,可以通過火山留資頁溝通實時轉換方案。
聲音轉換模塊鏈接:https://www.volcengine.com/product/Voice-conversion
火山留資頁:https://www.volcengine.com/contact/product?t=Voice-conversion