加州大學伯克利分校、CMU、斯坦福大學和加州大學圣地亞哥分校的團隊成員訓練了一個新的開源離線版聊天機器人,稱之為Vicuna。
實在沒想到羊駝有那么多親戚:vicu?a是南美的一種哺乳動物,屬于駱駝科,包括美洲駝、羊駝和駱駝。它發(fā)現(xiàn)于秘魯、玻利維亞、智利和阿根廷的安第斯山脈。
vicu?a是一種小而優(yōu)雅的動物,肩高約3英尺,體重約90磅。它的羊毛柔軟而細膩,質(zhì)量非常好,被認為是世界上最好的天然纖維之一。vicu?a羊毛非常昂貴,經(jīng)常被用來制作高端奢侈服裝,如大衣、圍巾和披肩。
你可以直接從這里試用,當然也可以自建:
https://chat.lmsys.org/
自建:https://github.com/lm-sys/FastChat
Vicuna英語原文地址:
https://vicuna.lmsys.org/
我們介紹了 Vicuna-13B,這是一種開源聊天機器人,通過微調(diào) LLaMA 對從 ShareGPT 收集的用戶共享對話進行訓練。使用 GPT-4 作為判斷的初步評估表明,Vicuna-13B 實現(xiàn)了 OpenAI ChatGPT 和 Google Bard 90% 以上的 * 質(zhì)量,同時在超過 90% * 的情況下優(yōu)于 LLaMA 和 Stanford Alpaca 等其他模型。培訓 Vicuna-13B 的費用約為 300 美元。培訓和服務代碼以及在線演示可公開用于非商業(yè)用途。
我們展示了羊駝和駱駝對基準問題的回答示例。在使用 70K 用戶共享的 ChatGPT 對話對 Vicuna 進行微調(diào)后,我們發(fā)現(xiàn)與 Alpaca 相比,Vicuna 能夠生成更詳細、結構更合理的答案(參見下面的示例),并且質(zhì)量與 ChatGPT 相當。
然而,評估聊天機器人絕非易事。隨著 GPT-4 的最新進展,我們很好奇它的能力是否已經(jīng)達到了類似人類的水平,從而可以實現(xiàn)用于基準生成和性能評估的自動化評估框架。我們的初步發(fā)現(xiàn)表明,在比較聊天機器人的答案時,GPT-4 可以產(chǎn)生高度一致的排名和詳細的評估(參見上面的 GPT-4 判斷示例)。基于 GPT-4 的初步評估(如圖 1 所示)表明,Vicuna 實現(xiàn)了 Bard/ChatGPT 的 90% * 能力。雖然這個提議的框架顯示了自動化聊天機器人評估的潛力,但它還不是一個嚴格的方法。為聊天機器人建立評估系統(tǒng)仍然是一個懸而未決的問題,需要進一步研究。評估部分提供了更多詳細信息。
演示:
大型語言模型 (LLM) 的快速發(fā)展徹底改變了聊天機器人系統(tǒng),從而實現(xiàn)了前所未有的智能水平,如 OpenAI 的 ChatGPT 所示。然而,盡管性能令人印象深刻,但 ChatGPT 的訓練和架構細節(jié)仍不清楚,阻礙了該領域的研究和開源創(chuàng)新。受 Meta LLaMA 和 Stanford Alpaca 項目的啟發(fā),我們推出了 Vicuna-13B,這是一個開源聊天機器人,由增強的數(shù)據(jù)集和易于使用、可擴展的基礎設施支持。通過根據(jù)從 ShareGPT.com 收集的用戶共享對話微調(diào) LLaMA 基礎模型,Vicuna-13B 與 Stanford Alpaca 等其他開源模型相比展示了具有競爭力的性能。這篇博文對 Vicuna-13B 的性能進行了初步評估,并描述了其訓練和服務基礎設施。我們還邀請社區(qū)與我們的在線演示進行互動,以測試該聊天機器人的功能。
上圖 概述了我們的工作。首先,我們從 ShareGPT.com 收集了大約 7 萬個對話,ShareGPT.com 是一個用戶可以分享他們的 ChatGPT 對話的網(wǎng)站。接下來,我們增強了 Alpaca 提供的訓練腳本,以更好地處理多輪對話和長序列。訓練是在一天內(nèi)在 8 個 A100 GPU 上使用 PyTorch FSDP 完成的。為了提供演示服務,我們實現(xiàn)了一個輕量級的分布式服務系統(tǒng)。我們通過創(chuàng)建一組 80 個不同的問題并利用 GPT-4 來判斷模型輸出,對模型質(zhì)量進行了初步評估。為了比較兩個不同的模型,我們將每個模型的輸出組合成每個問題的單個提示。然后將提示發(fā)送到 GPT-4,GPT-4 評估哪個模型提供更好的響應。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的詳細比較如下表 1 所示。
Vicuna 是通過使用從 ShareGPT.com 使用公共 API 收集的大約 70K 用戶共享對話微調(diào) LLaMA 基礎模型創(chuàng)建的。為了確保數(shù)據(jù)質(zhì)量,我們將 HTML 轉換回 markdown 并過濾掉一些不合適或低質(zhì)量的樣本。此外,我們將冗長的對話分成更小的部分,以適應模型的最大上下文長度。
我們的訓練方法建立在斯坦福羊駝的基礎上,并進行了以下改進。
-內(nèi)存優(yōu)化:為了使 Vicuna 能夠理解長上下文,我們將最大上下文長度從羊駝中的 512 擴展到 2048,這大大增加了 GPU 內(nèi)存需求。我們通過利用梯度檢查點和閃存注意力來解決內(nèi)存壓力。
-多輪對話:我們調(diào)整訓練損失以考慮多輪對話,并僅根據(jù)聊天機器人的輸出計算微調(diào)損失。
-通過 Spot 實例降低成本:40 倍大的數(shù)據(jù)集和 4 倍的訓練序列長度對訓練費用提出了相當大的挑戰(zhàn)。我們使用 SkyPilot 托管點來降低成本,方法是利用更便宜的點實例以及自動恢復搶占和自動區(qū)域切換。該解決方案將 7B 模型的訓練成本從 500 美元削減至 140 美元左右,將 13B 模型的訓練成本從 1000 美元左右削減至 300 美元。
我們構建了一個服務系統(tǒng),該系統(tǒng)能夠使用分布式工作人員為多個模型提供服務。它支持來自本地集群和云的 GPU worker 的靈活插件。通過利用 SkyPilot 中的容錯控制器和托管點功能,該服務系統(tǒng)可以很好地與來自多個云的更便宜的點實例一起工作,以降低服務成本。它目前是一個輕量級的實現(xiàn),我們正在努力將更多的最新研究成果集成到其中。
評估 AI 聊天機器人是一項具有挑戰(zhàn)性的任務,因為它需要檢查語言理解、推理和上下文感知。隨著 AI 聊天機器人變得越來越先進,當前的開放基準可能不再足夠。例如,斯坦福羊駝使用的評估數(shù)據(jù)集,self-instruct,可以通過 SOTA 聊天機器人有效地回答,使得人類很難辨別性能差異。更多限制包括訓練/測試數(shù)據(jù)污染和創(chuàng)建新基準的潛在高成本。為了解決這些問題,我們提出了一個基于 GPT-4 的評估框架來自動評估聊天機器人的性能。
首先,我們設計了八個問題類別,例如費米問題、角色扮演場景和編碼/數(shù)學任務,以測試聊天機器人性能的各個方面。通過仔細的提示工程,GPT-4 能夠生成基線模型難以解決的多樣化、具有挑戰(zhàn)性的問題。我們?yōu)槊總€類別選擇十個問題,并從五個聊天機器人收集答案:LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna。然后,我們要求 GPT-4 根據(jù)有用性、相關性、準確性和細節(jié)來評估他們答案的質(zhì)量。我們發(fā)現(xiàn) GPT-4 不僅可以產(chǎn)生相對一致的分數(shù),而且可以詳細解釋為什么給出這樣的分數(shù)(詳細示例鏈接)。但是,我們也注意到 GPT-4 不太擅長判斷編碼/數(shù)學任務。
上圖顯示了所有基線和 Vicuna 之間的比較結果。在超過 90% 的問題中,GPT-4 更喜歡 Vicuna 而不是最先進的開源模型(LLaMA、Alpaca),并且它實現(xiàn)了與專有模型(ChatGPT、Bard)競爭的性能。在 45% 的問題中,GPT-4 將 Vicuna 的回答評為優(yōu)于或等于 ChatGPT 的回答。由于 GPT-4 在 10 分的范圍內(nèi)為每個回答分配了一個定量分數(shù),我們通過將每個模型在 80 個問題上獲得的分數(shù)相加來計算每個(基線,Vicuna)比較對的總分。如表 2 所示,Vicuna 的總分是 ChatGPT 的 92%。盡管最近取得了進步,但這些聊天機器人仍然面臨局限性,例如難以解決基本的數(shù)學問題或編碼能力有限。
雖然這個提議的評估框架展示了評估聊天機器人的潛力,但它還不是一個嚴格或成熟的方法,因為大型語言模型容易產(chǎn)生幻覺。為聊天機器人開發(fā)一個全面、標準化的評估系統(tǒng)仍然是一個需要進一步研究的懸而未決的問題。
我們注意到,與其他大型語言模型類似,Vicuna 有一定的局限性。例如,它不擅長涉及推理或數(shù)學的任務,并且在準確識別自己或確保其輸出的事實準確性方面可能存在局限性。此外,它還沒有得到充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。為了解決安全問題,我們使用 OpenAI 審核 API 來過濾掉在線演示中不適當?shù)挠脩糨斎搿1M管如此,我們預計 Vicuna 可以作為未來研究解決這些限制的開放起點。
在我們的第一個版本中,我們將在 GitHub 存儲庫上共享訓練、服務和評估代碼: https://github.com/lm-sys/FastChat 。我們還發(fā)布了 Vicuna-13B 模型權重,請在此處找到說明。沒有發(fā)布數(shù)據(jù)集的計劃。加入我們的 Discord 服務器并關注我們的 Twitter 以獲取最新更新。
在線演示是僅供非商業(yè)用途的研究預覽,受 LLaMA 模型許可、OpenAI 生成數(shù)據(jù)的使用條款和 ShareGPT 隱私慣例的約束。如果您發(fā)現(xiàn)任何潛在的違規(guī)行為,請聯(lián)系我們。
這是與來自多個機構的合作者的共同努力,包括加州大學伯克利分校、CMU、斯坦福大學、加州大學圣地亞哥分校和 MBZUAI。
Students (alphabetical order):
Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang
Advisors (alphabetical order):
Joseph E. Gonzalez, Ion Stoica, Eric P. Xing
我們要感謝來自 BAIR 的 Xinyang Geng、Hao Liu 和 Eric Wallace;來自斯坦福羊駝團隊的 Xuecheng Li 和 Tianyi Zhang 進行了富有洞察力的討論和反饋。 BAIR 很快將發(fā)布另一篇博客文章,介紹他們在聊天機器人 Koala 上的同步工作。
總結:
該視頻討論了如何使用CPU或GPU在本地計算機上運行Vicuna模型。Vicuna模型是一個開源的聊天機器人,通過使用從共享GPT收集的用戶共享對話對Llama模型進行微調(diào)來訓練。根據(jù)作者的說法,Vicuna模型達到了90%的Chat JVD質(zhì)量,這是非常了不起的。作者還表示,Vicuna模型在90%以上的情況下能夠超越Glamor和Stanford Alpaca等模型,使其優(yōu)于現(xiàn)有模型。
研究人員使用GPT-4評估了不同的聊天機器人,它幾乎具有人類水平的能力。他們還使用不同的問題類別,如費米問題、角色扮演場景、編碼數(shù)學任務等等,來評估聊天機器人的表現(xiàn)。Vicuna模型也進行了優(yōu)化,以理解較長的上下文和多輪對話,從而在與聊天機器人的對話中獲得更好的能力和質(zhì)量。
該視頻的主要收獲是
1. Vicuna模型是一個開源的聊天機器人,通過使用從共享GPT收集的用戶共享對話對Llama模型進行微調(diào)來訓練。
2. Vicuna模型達到90%的聊天JVD質(zhì)量,并在90%以上的情況下優(yōu)于Glamor和Stanford Alpaca等模型。
3. 研究人員使用GPT-4評估了不同的聊天機器人,它幾乎具有人類水平的能力。
4. Vicuna模型經(jīng)過優(yōu)化,可以理解更長的上下文,上下文長度為2048。
5. Vicuna模型為多輪對話進行了優(yōu)化,導致了更好的質(zhì)量和能力。
6. GPT-4被用作聊天機器人的評估工具,因為它幾乎具有人類水平的能力,使其更容易評估不同的模型。
7. Vicuna模型可供使用,提供培訓和服務代碼,以及在線演示。