本文介紹了幾篇關(guān)于大型語言模型和大型視覺語言模型中幻覺問題的論文。其中包括評(píng)估大型模型的事實(shí)一致性、在大型視覺語言模型中評(píng)估目標(biāo)幻覺、HaluEval:一個(gè)大規(guī)模的幻覺評(píng)估基準(zhǔn)以及基于推理任務(wù)的大型語言模型產(chǎn)生幻覺的來源。這些論文提出了一些新的方法和評(píng)估標(biāo)準(zhǔn),可以更好地評(píng)估和解決大型語言模型中的幻覺問題。
建立一個(gè)新的用于比較模型對(duì)“真實(shí)一致的”和“真實(shí)不一致的”摘要之分的基準(zhǔn)數(shù)據(jù)集。此論文的基準(zhǔn)數(shù)據(jù)集被稱為FIB,包含了人工編寫的真實(shí)一致摘要和手動(dòng)注釋的真實(shí)不一致摘要。FIB數(shù)據(jù)集包括三個(gè)部分:文章內(nèi)容、真實(shí)一致摘要和真實(shí)不一致摘要。
利用大型語言模型,評(píng)估其生成結(jié)果的真實(shí)一致性。此論文采用GPT-2和T5這兩種廣泛使用的大型語言模型,分別用于產(chǎn)生文章的摘要。
對(duì)大型語言模型進(jìn)行測試。通過對(duì)FIB數(shù)據(jù)集進(jìn)行測試,比較大型語言模型生成摘要的真實(shí)一致性。作者在測試過程中考慮了摘要的準(zhǔn)確性和一致性等因素,以判斷摘要的真實(shí)一致性,并對(duì)結(jié)果進(jìn)行評(píng)估和分析。
分析大型語言模型的表現(xiàn)。此論文利用BLEU、ROUGE和BERTScores等指標(biāo)來比較大型語言模型的性能,并根據(jù)不同條件下的實(shí)驗(yàn)結(jié)果對(duì)大型語言模型進(jìn)行評(píng)估和分析。通過實(shí)驗(yàn)發(fā)現(xiàn),大型語言模型在處理真實(shí)一致的摘要上表現(xiàn)更優(yōu),但如果輸入文本中出現(xiàn)真實(shí)不一致的內(nèi)容,大型語言模型可能會(huì)更加傾向于生成真實(shí)不一致的摘要。
GitHub鏈接:https://github.com/r-three/fib
論文鏈接:https://arxiv.org/abs/2211.08412.pdf
文章研究的背景是針對(duì)大型視覺語言模型中的目標(biāo)幻覺問題。這是指模型根據(jù)生成的文本描述生成不一致于目標(biāo)圖像的物體的問題。
過去的方法已經(jīng)提出了大量的視覺語言模型,但都未對(duì)目標(biāo)幻覺問題進(jìn)行系統(tǒng)研究。此論文提出了一種系統(tǒng)的研究方法,主要是通過評(píng)估來發(fā)現(xiàn)和解決模型中的幻覺問題。通過設(shè)計(jì)新的評(píng)估方法,可以發(fā)現(xiàn)具體哪些目標(biāo)容易出現(xiàn)幻覺,并且可以更加穩(wěn)定和靈活地評(píng)估幻覺問題。
文章提出了一種基于投票的查詢方法(POPE)來評(píng)估大型視覺語言模型中的目標(biāo)幻覺。具體方法是首先生成一組幻覺候選物體,然后分別用其他模型投票來對(duì)每個(gè)候選物進(jìn)行評(píng)估,最終確定是否出現(xiàn)幻覺。
該方法在多個(gè)代表性的大型視覺語言模型上進(jìn)行了實(shí)驗(yàn),得到的結(jié)果表明這些模型大多數(shù)都存在嚴(yán)重的幻覺問題,并且新的評(píng)估方法可以更好地評(píng)估幻覺問題。這說明此論文提出的方法可以有效地解決大型視覺語言模型中的目標(biāo)幻覺問題。
GitHub鏈接:https://github.com/RUCAIBox/POPE
論文鏈接:https://arxiv.org/abs/2305.10355.pdf
此論文采用了ChatGPT模型生成大量的帶幻覺信息的數(shù)據(jù)集,并使用人工標(biāo)注這些數(shù)據(jù)集,對(duì)大型語言模型(LLMs)識(shí)別幻覺的表現(xiàn)進(jìn)行評(píng)測。
此論文提出了一個(gè)基于ChatGPT模型的兩步框架(抽樣-過濾法)生成幻覺數(shù)據(jù)集。第一步是采用一次性或?qū)υ捠降姆绞浇oChatGPT模型下發(fā)幻覺指令,第二步是通過一個(gè)過濾算法來周期性地篩選生成的結(jié)果。
針對(duì)任務(wù)特定領(lǐng)域,此論文采用一種自動(dòng)的方式生成幻覺樣本。該方法包括兩個(gè)步驟:多樣化幻覺抽樣和高質(zhì)量幻覺過濾。其中,多樣化幻覺抽樣又采用了一次性和對(duì)話式兩種不同的方式,使得每個(gè)問題都能生成多種幻覺答案。在這之后,此論文使用一種算法來對(duì)產(chǎn)生的結(jié)果進(jìn)行高質(zhì)量過濾選擇最真實(shí),最有挑戰(zhàn)性的樣本。
此論文提出的HaluEval基準(zhǔn)系統(tǒng)包含大量數(shù)據(jù)集,采用了人工標(biāo)注和自動(dòng)生成相結(jié)合的方法,能夠用來分析生成幻覺在特定的主題和任務(wù)關(guān)注點(diǎn)中有何特點(diǎn),并能夠研究LLMs處理幻覺的能力與方法。
此論文采用了多個(gè)現(xiàn)有的強(qiáng)大的LLMs(比如ChatGPT,GPT-3)來對(duì)HaluEval進(jìn)行評(píng)估和分析。研究發(fā)現(xiàn),ChatGPT模型對(duì)于某些特定主題很有幻覺傾向,并且現(xiàn)有的LLMs在辨別幻覺信息時(shí)面臨著很大的挑戰(zhàn)。但是,在外部知識(shí)和推理步驟的加入下,LLMs對(duì)于幻覺信息的辨別能力得到了很大提升。
GitHub鏈接:https://github.com/RUCAIBox/HaluEval
論文鏈接:https://arxiv.org/abs/2305.11747.pdf
此論文研究了當(dāng)前大型語言模型在自然語言推理(NLI)任務(wù)中產(chǎn)生幻覺的問題;
過去的研究方法普遍缺乏對(duì)大型語言模型推理能力的實(shí)證研究,存在著難以解釋的偏見和魯棒性問題,并且缺乏能夠獲得廣泛共識(shí)的結(jié)果。此論文基于大量受控實(shí)驗(yàn)對(duì)大型語言模型進(jìn)行了行為研究,提出了兩個(gè)主要因素,解釋了推理幻覺的產(chǎn)生原因,并提出了一種基于行為研究的可解釋方法;
此論文提出了一種基于方向推理數(shù)據(jù)集的行為研究方法,結(jié)合多個(gè)大型語言模型進(jìn)行了實(shí)驗(yàn)并分析了它們的推理行為,從而得出兩個(gè)主要因素,即模型對(duì)訓(xùn)練數(shù)據(jù)的記憶和語料庫的統(tǒng)計(jì)模式,用于解釋為什么大型語言模型會(huì)產(chǎn)生幻覺;
此論文通過行為研究發(fā)現(xiàn)了大型語言模型在方向推理任務(wù)上的表現(xiàn)問題,提出了兩個(gè)主要因素,這些因素解釋了大型語言模型產(chǎn)生假陽性幻覺的原因。此論文最后測試了幾個(gè)大型語言模型在推斷任務(wù)上的表現(xiàn),并展示了這些模型仍然使用非人類推理方法,在測試集上存在較大差距。
GitHub鏈接:https://github.com/Teddy-Li/LLM-NLI-Analysis
論文鏈接:https://arxiv.org/abs/2305.14552.pdf
聯(lián)系客服