精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
大模型幻覺問題專欄

本文介紹了幾篇關(guān)于大型語言模型和大型視覺語言模型中幻覺問題的論文。其中包括評(píng)估大型模型的事實(shí)一致性、在大型視覺語言模型中評(píng)估目標(biāo)幻覺、HaluEval:一個(gè)大規(guī)模的幻覺評(píng)估基準(zhǔn)以及基于推理任務(wù)的大型語言模型產(chǎn)生幻覺的來源。這些論文提出了一些新的方法和評(píng)估標(biāo)準(zhǔn),可以更好地評(píng)估和解決大型語言模型中的幻覺問題。

評(píng)估大模型的事實(shí)一致性

建立一個(gè)新的用于比較模型對(duì)“真實(shí)一致的”和“真實(shí)不一致的”摘要之分的基準(zhǔn)數(shù)據(jù)集。此論文的基準(zhǔn)數(shù)據(jù)集被稱為FIB,包含了人工編寫的真實(shí)一致摘要和手動(dòng)注釋的真實(shí)不一致摘要。FIB數(shù)據(jù)集包括三個(gè)部分:文章內(nèi)容、真實(shí)一致摘要和真實(shí)不一致摘要。

利用大型語言模型,評(píng)估其生成結(jié)果的真實(shí)一致性。論文采用GPT-2和T5這兩種廣泛使用的大型語言模型,分別用于產(chǎn)生文章的摘要。

對(duì)大型語言模型進(jìn)行測試。通過對(duì)FIB數(shù)據(jù)集進(jìn)行測試,比較大型語言模型生成摘要的真實(shí)一致性。作者在測試過程中考慮了摘要的準(zhǔn)確性和一致性等因素,以判斷摘要的真實(shí)一致性,并對(duì)結(jié)果進(jìn)行評(píng)估和分析。

分析大型語言模型的表現(xiàn)。論文利用BLEU、ROUGE和BERTScores等指標(biāo)來比較大型語言模型的性能,并根據(jù)不同條件下的實(shí)驗(yàn)結(jié)果對(duì)大型語言模型進(jìn)行評(píng)估和分析。通過實(shí)驗(yàn)發(fā)現(xiàn),大型語言模型在處理真實(shí)一致的摘要上表現(xiàn)更優(yōu),但如果輸入文本中出現(xiàn)真實(shí)不一致的內(nèi)容,大型語言模型可能會(huì)更加傾向于生成真實(shí)不一致的摘要。

GitHub鏈接:https://github.com/r-three/fib 

論文鏈接:https://arxiv.org/abs/2211.08412.pdf

在大型視覺語言模型中評(píng)估目標(biāo)幻覺

文章研究的背景是針對(duì)大型視覺語言模型中的目標(biāo)幻覺問題。這是指模型根據(jù)生成的文本描述生成不一致于目標(biāo)圖像的物體的問題。

過去的方法已經(jīng)提出了大量的視覺語言模型,但都未對(duì)目標(biāo)幻覺問題進(jìn)行系統(tǒng)研究。論文提出了一種系統(tǒng)的研究方法,主要是通過評(píng)估來發(fā)現(xiàn)和解決模型中的幻覺問題。通過設(shè)計(jì)新的評(píng)估方法,可以發(fā)現(xiàn)具體哪些目標(biāo)容易出現(xiàn)幻覺,并且可以更加穩(wěn)定和靈活地評(píng)估幻覺問題。

文章提出了一種基于投票的查詢方法(POPE)來評(píng)估大型視覺語言模型中的目標(biāo)幻覺。具體方法是首先生成一組幻覺候選物體,然后分別用其他模型投票來對(duì)每個(gè)候選物進(jìn)行評(píng)估,最終確定是否出現(xiàn)幻覺。

該方法在多個(gè)代表性的大型視覺語言模型上進(jìn)行了實(shí)驗(yàn),得到的結(jié)果表明這些模型大多數(shù)都存在嚴(yán)重的幻覺問題,并且新的評(píng)估方法可以更好地評(píng)估幻覺問題。這說明論文提出的方法可以有效地解決大型視覺語言模型中的目標(biāo)幻覺問題。

GitHub鏈接:https://github.com/RUCAIBox/POPE 

論文鏈接:https://arxiv.org/abs/2305.10355.pdf

HaluEval:一個(gè)大規(guī)模的幻覺評(píng)估基準(zhǔn)

論文采用了ChatGPT模型生成大量的帶幻覺信息的數(shù)據(jù)集,并使用人工標(biāo)注這些數(shù)據(jù)集,對(duì)大型語言模型(LLMs)識(shí)別幻覺的表現(xiàn)進(jìn)行評(píng)測。

論文提出了一個(gè)基于ChatGPT模型的兩步框架(抽樣-過濾法)生成幻覺數(shù)據(jù)集。第一步是采用一次性或?qū)υ捠降姆绞浇oChatGPT模型下發(fā)幻覺指令,第二步是通過一個(gè)過濾算法來周期性地篩選生成的結(jié)果。

針對(duì)任務(wù)特定領(lǐng)域,論文采用一種自動(dòng)的方式生成幻覺樣本。該方法包括兩個(gè)步驟:多樣化幻覺抽樣和高質(zhì)量幻覺過濾。其中,多樣化幻覺抽樣又采用了一次性和對(duì)話式兩種不同的方式,使得每個(gè)問題都能生成多種幻覺答案。在這之后,論文使用一種算法來對(duì)產(chǎn)生的結(jié)果進(jìn)行高質(zhì)量過濾選擇最真實(shí),最有挑戰(zhàn)性的樣本。

論文提出的HaluEval基準(zhǔn)系統(tǒng)包含大量數(shù)據(jù)集,采用了人工標(biāo)注和自動(dòng)生成相結(jié)合的方法,能夠用來分析生成幻覺在特定的主題和任務(wù)關(guān)注點(diǎn)中有何特點(diǎn),并能夠研究LLMs處理幻覺的能力與方法。

論文采用了多個(gè)現(xiàn)有的強(qiáng)大的LLMs(比如ChatGPT,GPT-3)來對(duì)HaluEval進(jìn)行評(píng)估和分析。研究發(fā)現(xiàn),ChatGPT模型對(duì)于某些特定主題很有幻覺傾向,并且現(xiàn)有的LLMs在辨別幻覺信息時(shí)面臨著很大的挑戰(zhàn)。但是,在外部知識(shí)和推理步驟的加入下,LLMs對(duì)于幻覺信息的辨別能力得到了很大提升。

GitHub鏈接:https://github.com/RUCAIBox/HaluEval 

論文鏈接:https://arxiv.org/abs/2305.11747.pdf

基于推理任務(wù)的大型語言模型產(chǎn)生幻覺的來源

論文研究了當(dāng)前大型語言模型在自然語言推理(NLI)任務(wù)中產(chǎn)生幻覺的問題;

過去的研究方法普遍缺乏對(duì)大型語言模型推理能力的實(shí)證研究,存在著難以解釋的偏見和魯棒性問題,并且缺乏能夠獲得廣泛共識(shí)的結(jié)果。論文基于大量受控實(shí)驗(yàn)對(duì)大型語言模型進(jìn)行了行為研究,提出了兩個(gè)主要因素,解釋了推理幻覺的產(chǎn)生原因,并提出了一種基于行為研究的可解釋方法;

論文提出了一種基于方向推理數(shù)據(jù)集的行為研究方法,結(jié)合多個(gè)大型語言模型進(jìn)行了實(shí)驗(yàn)并分析了它們的推理行為,從而得出兩個(gè)主要因素,即模型對(duì)訓(xùn)練數(shù)據(jù)的記憶和語料庫的統(tǒng)計(jì)模式,用于解釋為什么大型語言模型會(huì)產(chǎn)生幻覺;

論文通過行為研究發(fā)現(xiàn)了大型語言模型在方向推理任務(wù)上的表現(xiàn)問題,提出了兩個(gè)主要因素,這些因素解釋了大型語言模型產(chǎn)生假陽性幻覺的原因。論文最后測試了幾個(gè)大型語言模型在推斷任務(wù)上的表現(xiàn),并展示了這些模型仍然使用非人類推理方法,在測試集上存在較大差距。

GitHub鏈接:https://github.com/Teddy-Li/LLM-NLI-Analysis 

論文鏈接:https://arxiv.org/abs/2305.14552.pdf

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大模型(LLM)最新學(xué)術(shù)進(jìn)展!2023年10月 爆款論文總結(jié),共計(jì)12篇
陳根:人工智能的“胡言亂語”,有沒有解法?
大語言模型綜述全新升級(jí)版:85頁、600 篇參考文獻(xiàn)
熱點(diǎn)解讀:大模型的突現(xiàn)能力和ChatGPT引爆的范式轉(zhuǎn)變
ChatGPT大模型如何做科學(xué)研究? CMU提出《大模型智能體系統(tǒng)》,高推理展現(xiàn)出大型語言模型的新興自主科學(xué)研究能力
是什么讓ChatGPT變得如此聰明?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 平南县| 塔河县| 哈巴河县| 蓝山县| 唐海县| 金坛市| 建瓯市| 凤山县| 临湘市| 宁远县| 石门县| 泸溪县| 泰州市| 定远县| 旺苍县| 闽侯县| 台山市| 北京市| 兴国县| 祁连县| 盐山县| 鸡西市| 黑河市| 西峡县| 读书| 定日县| 哈巴河县| 楚雄市| 海口市| 罗定市| 上杭县| 余姚市| 育儿| 广南县| 屯昌县| 绥化市| 民乐县| 武鸣县| 阿鲁科尔沁旗| 定襄县| 酒泉市|