精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
2000元訓(xùn)練比肩ChatGPT的開源大模型!GPT-4親自蓋章認(rèn)證,模型權(quán)重均可下載

2000塊,調(diào)教出一個(gè)達(dá)到ChatGPT九成功力的開源大模型

還是被GPT-4親自蓋章認(rèn)證實(shí)力的那種。

這事兒,一群主要來自加州大學(xué)伯克利分校的研究人員做到了。

如圖中所見,這個(gè)模型名叫Vicuna (小羊駝)

沒錯(cuò),熟悉的配方,熟悉的味道

。Vicuna同樣是基于Meta開源的LLaMA大模型(大羊駝)微調(diào)而來。

與此前斯坦福大學(xué)基于LLaMA的Alpaca(還是羊駝)不同的是,盡管也薅了ChatGPT羊毛——用了ChatGPT生成的數(shù)據(jù),但Vicuna所用的數(shù)據(jù)來自ShareGPT,而不是直接用OpenAI的API生成。

ShareGPT是一個(gè)分享ChatGPT對(duì)話的谷歌插件,目前擁有超過11萬對(duì)話數(shù)量。

更為特別的是,這一次,研究人員直接請(qǐng)來GPT-4本尊,給新模型“打分”。

他們還提到:

相比于Alpaca-13B等模型,GPT-4在絕大多數(shù)問題上偏向于Vicuna。

此模型一出,就吸引了不少網(wǎng)友的關(guān)注。

就有網(wǎng)友認(rèn)為:這類工作證明,對(duì)于個(gè)人用戶而言,大語言模型并不是那么遙不可及。

量子位最新獲悉,目前,Vicuna的權(quán)重已經(jīng)完全開放。

還可在線體驗(yàn):https://chat.lmsys.org

誰是GPT-4更愛的模型?

具體的打分過程,咱們一起來看看具體示例。

首先,同時(shí)拋給Alpaca和Vicuna這樣一個(gè)問題:

寫一篇關(guān)于最近去夏威夷旅行的旅游博客,強(qiáng)調(diào)文化體驗(yàn)和必看景點(diǎn)。
Compose an engaging travel blog post about a recent trip to Hawaii, highlighting cultural experiences and must-see attractions.

Vicuna的回答如下,可以說是要素齊全,并且?guī)в休^強(qiáng)的感情色彩。

翻譯來自谷歌翻譯

相比之下,Alpaca的回答就簡(jiǎn)短得多。

然后,把這兩個(gè)答案都丟給GPT-4,讓它按10分制分別給打個(gè)分。

這一步,需要設(shè)置好prompt,研究人員用到的提示詞是這樣的:

We would like to request your feedback on the performance of two AI assistants in response to the user question displayed above. 

Please rate the helpfulness, relevance, accuracy, level of details of their responses. Each assistant receives an overall score on a scale of 1 to 10, where a higher score indicates better overall performance. 

Please first output a single line containing only two values indicating the scores for Assistant 1 and 2, respectively. The two scores are separated by a space. 

In the subsequent line, please provide a comprehensive explanation of your evaluation, avoiding any potential bias and ensuring that the order in which the responses were presented does not affect your judgment.

其中的技巧在于:

  1. 首先完整陳述任務(wù):(1)需要寫的是反饋;(2)評(píng)價(jià)對(duì)象是兩個(gè)AI助手;(3)評(píng)價(jià)內(nèi)容是它們的回答表現(xiàn);(4)回復(fù)的對(duì)象是上面列著的用戶的問題。

  2. 給出評(píng)價(jià)的標(biāo)準(zhǔn):(1)有幫助(不是車轱轆話,且考慮回復(fù)的對(duì)象是人類用戶,生成的回答要讓人類可以理解);(2)相關(guān)(不能偏題);(3)準(zhǔn)確(不能胡說八道);(4)詳盡(不能太空太高或者回避細(xì)節(jié))。

  3. 給出評(píng)分范圍:1-10。

  4. 給出評(píng)分的意義:越高代表綜合表現(xiàn)越好。

  5. 給出評(píng)分的第一行輸出格式:必須在第一行輸出兩個(gè)數(shù)字,分別代表給兩個(gè)AI助手的評(píng)分。用空格分隔評(píng)分。

  6. 給出評(píng)分的其余行輸出:要求提供一個(gè)詳盡的分析。

  7. 給出更多評(píng)分限定條件:避免任何偏見;避免回答順序影響結(jié)果。

于是,對(duì)于上面這兩篇《夏威夷游記》,GPT-4給Vicuna打了10分,給Alpaca打了7分

理由是:

助手1沒有按要求實(shí)際撰寫博客,只是提供了簡(jiǎn)要概述,因此得分較低。而助手2則針對(duì)近期的一次夏威夷之旅,撰寫了一篇詳細(xì)且引人入勝的旅游博客,重點(diǎn)介紹了文化體驗(yàn)和必游景點(diǎn),充分滿足了用戶需求,獲得了較高的分?jǐn)?shù)。

研究人員還用同樣的方法對(duì)比評(píng)估了LLaMA-13B、ChatGPT-3.5和Vicuna之間的差異。

對(duì)于ChatGPT vs Vicuna,GPT-4給出的評(píng)價(jià)是:各有千秋,都打9分。

研究人員提到,整個(gè)評(píng)測(cè)過程依然是human-in-the-loop。他們會(huì)查看GPT-4的評(píng)估是否有道理,并總結(jié)各個(gè)模型的優(yōu)缺點(diǎn)。

這種人機(jī)協(xié)作的方式,比人類直接生成評(píng)估更高效。并且“雖然無法科學(xué)地證實(shí)這一點(diǎn),但是可以感覺到GPT-4對(duì)不少答案的評(píng)估結(jié)果要好于一般人類”。

基于這樣的方法,研究人員最后把Vicuna和其他模型的回答以匿名的方式拋給了GPT-4。

GPT-4最終的打分結(jié)果顯示,在130億參數(shù)LLaMA基礎(chǔ)上微調(diào)而來的Vicuna,達(dá)到了ChatGPT(GPT-3.5)性能的90%,超過了LLaMA-13B本身和斯坦福的Alpaca。

勝率圖也顯示,在與LLaMA-13B和Alpaca-13B的比較中,裁判GPT-4明顯偏愛Vicuna。Vicuna還和谷歌的Bard打了個(gè)有來有回。

訓(xùn)練細(xì)節(jié)

Vicuna的不俗表現(xiàn)背后,是來自ShareGPT的大約7萬條對(duì)話數(shù)據(jù)。

為了確保數(shù)據(jù)質(zhì)量,研究人員把HTML轉(zhuǎn)成了markdown,過濾掉了低質(zhì)量樣本,還對(duì)過長(zhǎng)的對(duì)話進(jìn)行了切分,以適應(yīng)模型的最大上下文長(zhǎng)度。

另外,研究人員也借助了Alpaca的肩膀:增強(qiáng)了Alpaca提供的訓(xùn)練腳本,以更好地處理多輪對(duì)話和長(zhǎng)序列。具體包括:

  • 內(nèi)存優(yōu)化:Vicuna的最大上下文長(zhǎng)度為2048(Alpaca為512),對(duì)GPU內(nèi)存要求更高。研究人員利用梯度檢查點(diǎn)和內(nèi)存注意力來解決內(nèi)存壓力。

  • 多輪對(duì)話:調(diào)整訓(xùn)練損失來適應(yīng)多輪對(duì)話任務(wù),并僅根據(jù)聊天機(jī)器人的輸出計(jì)算微調(diào)損失。

  • 降低成本:研究人員使用SkyPilot managed spot來降低成本。該解決方案將70億參數(shù)模型的訓(xùn)練成本從500美元降低至140美元左右。將130億參數(shù)模型的訓(xùn)練成本從1000美元降低至300美元(約合人民幣2068元)

整個(gè)Vicuna的訓(xùn)練,用到了8張A100 GPU,訓(xùn)練時(shí)間是一天。

One More Thing

說起來,Vicuna這個(gè)開源大模型,從里到外都挺AI的。

比如LOGO,就是用Stable Diffusion 2.1生成的。

有意思的一件事是,作者們是自己想出了“Vicuna”這個(gè)羊駝系的名字,但他們也就取名問題問了問GPT-4。

而GPT-4跟他們英雄所見略同了:

你們可以管它叫“Vicu?a”。

最后的最后,提醒一句,Vicuna只能用于非商業(yè)用途喲~

參考鏈接:
[1]https://vicuna.lmsys.org/
[2]https://zhuanlan.zhihu.com/p/618389519
[3]https://github.com/lm-sys/FastChat


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
萬字長(zhǎng)文:LLM - 大語言模型發(fā)展簡(jiǎn)史
不要只盯著ChatGPT了,盤點(diǎn)2023年全球十大大模型,僅開源占了半邊天!
大模型迎來「開源季」,盤點(diǎn)過去一個(gè)月那些開源的LLM和數(shù)據(jù)集
LeCun狂贊:600刀GPT-3.5平替! 斯坦福70億參數(shù)「羊駝」爆火,LLaMA殺瘋了
LLMs之Vicuna:《Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality》翻譯與解讀
開源大型語言模型(llm)總結(jié)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 剑河县| 波密县| 白山市| 松滋市| 太湖县| 大同市| 惠水县| 鄂伦春自治旗| 平安县| 乌兰县| 邹平县| 临泽县| 齐齐哈尔市| 文成县| 都江堰市| 普兰县| 勃利县| 宾阳县| 新密市| 开化县| 本溪| 大竹县| 唐山市| 沁阳市| 仁寿县| 浮山县| 海伦市| 北票市| 阜南县| 卫辉市| 邵阳市| 墨竹工卡县| 定远县| 平潭县| 黎川县| 桃源县| 资中县| 镇雄县| 晴隆县| 宁晋县| 蒙自县|