精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
“柯南領結”變成現實,字節跳動SAMI發布新一代實時AI變聲方案

機器之心報道

機器之心編輯部

這項技術未來在虛擬人、短視頻玩法、客服服務、直播互動玩法上有著很大的落地空間。

字節跳動智能創作語音團隊 SAMI(Speech, Audio and Music Intelligence)近日發布了新一代的低延遲、超擬人的實時 AI 變聲技術。不同于傳統的變聲,AI 變聲是基于深度學習的聲音轉換(Voice Conversion)技術來實現的,可以實現任意發音人的音色定制,極大程度保留原始音色的特點。

該方案的亮點如下:

  • 在 CPU 單核上就能做到極低延遲的實時輸入實時變聲,就像 “柯南領結” 一樣;
  • 能夠高度還原輸入語音的抑揚頓挫、情感、口音,甚至連輕微的呼吸、咳嗽聲也能還原;
  • 媲美真人的高保真音質,以及高度的目標音色一致性;

從語音合成到聲音轉換:探索更多元的聲音玩法

語音合成作為人工智能的一個重要分支,旨在通過輸入文字,經由人工智能的算法,合成像真人語音一樣自然的音頻,該技術已被廣泛的應用于音視頻創作場景中。而相比語音合成,聲音轉換創造了新的語音交互形式:其不再需要輸入文字,而是根據用戶輸入的說話音頻,將音頻中的音色轉換到目標發音人上,并保持說話內容、韻律情感等一致。相較于輸入文本,輸入音頻包含了更豐富的副語言信息,例如各個段落的情感、抑揚頓挫、停頓等。聲音轉換能夠做到改變音色的同時,將這些副語言信息很好的還原。

同基于深度學習的語音合成一樣,聲音轉換的模型也由聲學模型(acoustic model)和聲碼器(vocoder)組成。聲學模型通過內容編碼器從輸入音頻中提取出發音內容序列,并通過音色編碼器從參考音頻中提取出音色特征,最后通過聲音轉換模型生成帶有輸入音頻內容和參考音頻音色的頻譜;聲碼器負責將聲學模型生成的頻譜還原為能夠被設備直接播放的音頻采樣點:

面向實時場景的聲音轉換模型優化

相較于非實時場景下對完整音頻的聲音轉換,實時聲音轉換有著更加豐富的落地場景。典型的場景包括直播、虛擬人這類實時交互的娛樂場景,變聲的結果需要在很短的延遲內實時流式的生成,才能保證音畫同步。

實時聲音轉換的難點在于:1. 模型在每個時刻只能獲取到很短的未來音頻片段,因此發音內容的正確識別更加困難;2. 流式推理的實時率(計算時長 / 音頻時長)需要穩定小于 1,因此在設計模型時需要更加關注推理性能。這給研發人員帶來了更大的挑戰,一方面需要通過設計合理的模型結構來降低模型感受野和推理延時,另一方面需要盡可能保證變聲的發音內容、音色和音質不受影響。

為了達到上述要求,研究人員對模型進行了一系列改進,使得模型的首包延時壓縮到 250ms 左右。實時聲音轉換的整體框架如下:

對于內容編碼器,研究人員采用細粒度發音提取模塊代替了傳統基于音素后驗概率的方法,使得更多的發音細節、韻律情感能夠被保留下來,且顯著降低了對模型感受野的要求;對于聲音轉換模型,研究人員結合了 chunk 級別的信息編碼和幀級別的自回歸解碼,并引入了基于教師指導的訓練機制,從而確保了生成頻譜的發音、音質和音色足夠好;對于聲碼器,研究人員通過精巧的模型結構設計大大壓縮了感受野,并通過對抗生成訓練提高了生成音頻的自然度。

現實版“柯南領結”:各種復雜場景不在話下

現實的語音交互中往往包含許多復雜的場景,使得現有大部分的 AI 變聲系統的轉換結果變得極不自然。例如,當用戶輸入中包含嘆氣、咳嗽這類聲音時,現有系統傾向于對其過濾而非保留,從而導致用戶想表達的副語言信息的丟失。并且,現有系統的跨域性能較差,從而導致用戶進行多語種 / 方言輸入時,無法轉換出正確的內容。此外,現有系統在低延遲場景下的轉換結果容易出現發音錯誤與音色不穩定的問題。

相較于現有系統,本系統在各個場景下的轉換效果均顯著提升。

SAMI 的新一代 AI 變聲系統對于復雜場景的適應性顯著提升。這項聲音轉換服務可以支持云端在線服務形式輸出,也支持本地化部署。未來在虛擬人、短視頻玩法、客服服務、直播互動玩法上有著很大的落地空間。

目前這項技術已經可以在火山引擎 - 音頻技術下的聲音轉換模塊體驗和開通。針對一些商業化的合作,特別是發音人的音色定制會嚴格審核音色的版權和授權許可。一些實時性要求比較高的業務,可以通過火山留資頁溝通實時轉換方案。

聲音轉換模塊鏈接:https://www.volcengine.com/product/Voice-conversion

火山留資頁:https://www.volcengine.com/contact/product?t=Voice-conversion

打開網易新聞,閱讀體驗更佳
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
搜狗AI變聲引發用戶恐慌,世界不需要AI狂熱分子!
老年人學剪映(130)剪映專業版3.2.0又新增了兩個實用功能
【RVC教程】 AI 實時變聲器使用教程|AI降噪|音頻跳線
繼“換臉”刷屏之后,這個AI技術讓你“一鍵變聲”
提供類“ChatGPT”功能,將文本自動生成歌曲,Voicemod獲得1450萬美元A 輪融資
【AI孫燕姿】20分鐘學會使用谷歌colab推理AI歌曲,生成冷門歌手孫燕姿音色歌曲
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 尼勒克县| 河间市| 沂水县| 黔西县| 汽车| 兴业县| 八宿县| 漯河市| 南安市| 星座| 龙门县| 正镶白旗| 绿春县| 盖州市| 大邑县| 北宁市| 永州市| 英超| 利辛县| 贵阳市| 齐齐哈尔市| 威海市| 拜城县| 仪征市| 江永县| 贵阳市| 安塞县| 尚义县| 黄梅县| 海兴县| 秦皇岛市| 汪清县| 屏南县| 井研县| 鸡泽县| 福鼎市| 望谟县| 长宁县| 墨竹工卡县| 左权县| 南靖县|