背景介紹

【Kimi智能體實(shí)戰(zhàn)】解鎖智能對話新技能，讓Kimi大模型帶你輕松打造全新智能體！包含10+實(shí)用工具詳細(xì)介紹！
喂飯級教程: 利用coze來搭建圖像流，生成斗圖表情包AI助手，斗圖從此再也不會(huì)輸！
【喂飯級教程】kimi api大家可能都知道，那為什么要用api你知道嗎? 實(shí)操利用kimi api來實(shí)現(xiàn)文本聊天和圖片識別！
【干貨分享】4個(gè)爆火AI知識庫/大模型基礎(chǔ)課程，讓你輕松拿捏kimi大模型，想學(xué)習(xí)AI的小伙伴，快上車~
【個(gè)人提升】kimi應(yīng)用: 嘴笨經(jīng)常被人欺負(fù)，我讓kimi扮演'懟人專家’帶我飛，效果顯著，如今已有所小成！
天工SkyMusic實(shí)操教程：一分鐘學(xué)會(huì)AI音樂創(chuàng)作，效果驚艷！
Kimi雖火，但是需要打字; 一分鐘創(chuàng)建AI語音助手，完美克隆任何人的聲音，真實(shí)程度直接拉滿完全免費(fèi)~

之前給大家分享關(guān)于語音大模型訊飛星火、天工等等，但都是必源的。最近發(fā)現(xiàn)一個(gè)超酷開源的語音轉(zhuǎn)文本ChatTTS項(xiàng)目，生成的語音文本效果逼真，支持中文和英文。結(jié)合kimi api，我給大家手搓一個(gè)語音AI助手，讓大模型自然流暢地說出來！下面我給大家詳細(xì)介紹，文末有實(shí)測對應(yīng)的效果展示哦~

本文目錄

ChatTTS開源語音天花板

ChatTTS項(xiàng)目介紹
效果展示: 利用ChatTTS實(shí)現(xiàn)中文文本轉(zhuǎn)語音
效果展示: 利用ChatTTS實(shí)現(xiàn)英文語音轉(zhuǎn)文本

kimi api接口介紹

為什么要用api的方式來調(diào)用大模型?
kimi大模型介紹
kimi api相關(guān)限速介紹
如何配置自己的api
查看目前免費(fèi)api的用量限制:
充值來提高api接口的限制:

kimi api+ChatTTS打造個(gè)人語音AI助手

配置對應(yīng)的庫
kimi大模型驗(yàn)證
將其封裝成函數(shù)
問答對話語音展示

參考文檔

ChatTTS開源語音天花板

ChatTTS項(xiàng)目介紹

ChatTTS 文本轉(zhuǎn)語音項(xiàng)目在github爆火出圈，引來大家極大的關(guān)注。短短三天時(shí)間，在 GitHub 上已經(jīng)斬獲了15.8k的Star量。

ChatTTS是專門為對話場景設(shè)計(jì)的文本轉(zhuǎn)語音模型，例如LLM助手對話任務(wù)。它支持英文和中文兩種語言。

作者本人也在 x (原推特)上表示，ChatTTS 突破了開源天花板。不過，目前開源的只是基礎(chǔ)大模型，沒有經(jīng)過 SFT 監(jiān)督微調(diào)。

項(xiàng)目github地址: https://github.com/2noise/ChatTTS

其具有下面特點(diǎn):

對話式 TTS: ChatTTS針對對話式任務(wù)進(jìn)行了優(yōu)化，實(shí)現(xiàn)了自然流暢的語音合成，同時(shí)支持多說話人。
細(xì)粒度控制: 該模型能夠預(yù)測和控制細(xì)粒度的韻律特征，包括笑聲、停頓和插入詞等。
更好的韻律: ChatTTS在韻律方面超越了大部分開源TTS模型。同時(shí)提供預(yù)訓(xùn)練模型，支持進(jìn)一步的研究。

下面我將給大家實(shí)操ChatTTS的效果展示。

效果展示: 利用ChatTTS實(shí)現(xiàn)中文文本轉(zhuǎn)語音

配置對應(yīng)的運(yùn)行環(huán)境

from IPython.display import clear_output
!git clone https://github.com/2noise/ChatTTS
%cd ChatTTS
!pip install -r requirements.txt
!pip install openai==1.30.1
!pip install pynini==2.1.5 Cython   WeTextProcessing torchaudio
clear_output()

下載模型權(quán)重

import ChatTTS
import torch
torch._dynamo.config.cache_size_limit = 64
torch._dynamo.config.suppress_errors = True
torch.set_float32_matmul_precision('high')
from IPython.display import Audio

chat = ChatTTS.Chat()
chat.load_models()

進(jìn)行模型推理實(shí)現(xiàn)中文文本轉(zhuǎn)語音

輸出的語音效果展示:

效果展示: 利用ChatTTS實(shí)現(xiàn)英文語音轉(zhuǎn)文本

輸出的語音效果展示:

效果是不是很驚艷，下面我將結(jié)合大模型來搭建個(gè)人語音AI助手~
kimi api接口介紹

為什么要用api的方式來調(diào)用大模型?

部分大模型未開源: 即沒有開放模型參數(shù)權(quán)重，所以沒法實(shí)現(xiàn)本地加載。
本地設(shè)備無法支持大模型推理: 大模型的參數(shù)量高達(dá)幾百元甚至千億的參數(shù)量，光是參數(shù)文件就高達(dá)幾十G設(shè)置上百G的參數(shù)，更何況本地沒有大型顯卡推理，即使下載下來權(quán)重也無法運(yùn)行。大模型推理是費(fèi)錢費(fèi)力。
易用、高效、定制化強(qiáng): 通過api接口的方式，易用高效便于用戶定制，用戶只需要幾行代碼就可以定制自己的AI助手。環(huán)境只需要CPU就行，不需要昂貴的GPU，網(wǎng)絡(luò)通暢就行。還能通過api的并發(fā)等來限制來收取會(huì)員費(fèi)用。

kimi大模型介紹

目前kimi大模型有：

moonshot-v1-8k: 它是一個(gè)長度為 8k 的模型，適用于生成短文本。
moonshot-v1-32k: 它是一個(gè)長度為 32k 的模型，適用于生成長文本。
moonshot-v1-128k: 它是一個(gè)長度為 128k 的模型，適用于生成超長文本。以上模型的區(qū)別在于它們的最大上下文長度，這個(gè)長度包括了輸入消息和生成的輸出，在效果上并沒有什么區(qū)別。這個(gè)主要是為了方便用戶選擇合適的模型。

kimi api相關(guān)限速介紹

之前給大家介紹，就是利用coze平臺搭建的AI助手，其底層大模型對應(yīng)的是免費(fèi)的moonshot-v1-128k大模型。

對應(yīng)就是并發(fā)為1
RPM( request per minute)指一分鐘內(nèi)您最多向我們發(fā)起的請求數(shù)只有3次，
TPM( token per minute)指一分鐘內(nèi)您最多和我們交互的token數(shù)只有32000個(gè)token數(shù)，
TPD(token per day)指一天內(nèi)您最多和我們交互的token數(shù)交互1.5M;

如何配置自己的api

首先你需要打開https://platform.moonshot.cn/console/info,進(jìn)行登錄注冊，成功后進(jìn)入下面界面

點(diǎn)擊右邊的新建,命名后記得及時(shí)復(fù)制api密鑰，下面需要用到。

查看目前免費(fèi)api的用量限制:

充值來提高api接口的限制:

賬號界面預(yù)覽

用戶新注冊免費(fèi)獲得15元。

下面我將手把手給大家介紹如何利用kimi api+ ChatTTS來打造個(gè)人語音AI助手。

kimi api+chatTTS打造個(gè)人語音AI助手

配置對應(yīng)的庫

from IPython.display import clear_output
!git clone https://github.com/2noise/ChatTTS
%cd ChatTTS
!pip install -r requirements.txt
!pip install openai==1.30.1
!pip install pynini==2.1.5 Cython   WeTextProcessing torchaudio
clear_output()

# 配置kimi大模型的api
from openai import OpenAI
client = OpenAI(
    api_key = 'kimiapi密鑰',
    base_url = 'https://api.moonshot.cn/v1',
)

kimi大模型驗(yàn)證

query='請問長江和嘉陵江相匯在什么地方'
completion = client.chat.completions.create(
    model = 'moonshot-v1-128k',
    messages = [
        {'role': 'system', 'content': '你是 Kimi，由 Moonshot AI 提供的人工智能助手，你更擅長中文和英文的對話。你會(huì)為用戶提供安全，有幫助，準(zhǔn)確的回答。同時(shí)，你會(huì)拒絕一切涉及恐怖主義，種族歧視，黃色暴力等問題的回答。Moonshot AI 為專有名詞，不可翻譯成其他語言。'},
        {'role': 'user', 'content': query}
    ],
    temperature = 0.3,
)
print(completion.choices[0].message.content)

長江和嘉陵江相匯的地方位于中國重慶市。嘉陵江在重慶市渝中區(qū)的朝天門碼頭匯入長江，形成了重慶獨(dú)特的兩江交匯景觀。

將其封裝成函數(shù)

def kimi_chat_speak(user_query,history):
    history.append({
        'role': 'user', 
        'content': user_query
    })
    completion = client.chat.completions.create(
        model='moonshot-v1-128k',
        messages=history,
        temperature=0.3,
    )
    result = completion.choices[0].message.content
    history.append({
        'role': 'assistant',
        'content': result
    })
    print('kimi: ', result)
    params_infer_code = {'prompt':'[speed_5]', 'temperature':.3}
    params_refine_text = {'prompt':'[oral_2][laugh_0][break_6]'}
    texts = [result]
    wavs = chat.infer(texts,
                  do_text_normalization=True,
                  params_refine_text=params_refine_text,
                  params_infer_code=params_infer_code)
    return wavs

問答對話語音展示

對話案例1效果展示:

對話案例2效果展示:

對話案例3效果展示:

怎么樣，是不是很哇塞，快去嘗試吧！

參考文檔

https://kimi.moonshot.cn/
https://github.com/2noise/ChatTTS

z先生說

今天給大家分享ChatTTS開源語音轉(zhuǎn)文本項(xiàng)目，結(jié)合Kimi等大模型的api可以輕松定制個(gè)人語音AI助手。如果你想進(jìn)行商用，還請查看ChatTTS的github倉庫了解更多相關(guān)的信息。

不管大模型怎么發(fā)展，終究只是一個(gè)工具，如何利用好它來提高我們的效率，這個(gè)才是最重要的！

如果本文對你有幫助，還請你點(diǎn)贊在看轉(zhuǎn)發(fā)。你的支持就是我創(chuàng)作的最大動(dòng)力，關(guān)注下面公眾號不迷路~

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕