機器之心發布
機器之心編輯部
這篇文章對大模型的事實性進行了詳細的梳理和總結。
大模型在掌握事實性知識上展現出巨大的能力和潛力,但是其仍然存在一些問題,比如缺乏領域知識,缺乏實時知識,可能會產生幻覺等等,這極大的限制了大模型的應用和可依靠性。近期已經有一些工作針對大模型的事實性進行了研究,但仍未有文章對大模型事實性的定義、影響、評估、分析和增強進行完整的梳理。
西湖大學聯合國內外十家科研單位發表了一篇大模型事實性的綜述《Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity》,該綜述調研了三百余篇文獻,重點討論了事實性的定義和影響、大模型事實性的評估、大模型事實性機制和產生錯誤的原理、大模型事實性的增強等幾個方面的內容,對大模型的事實性進行了詳細的梳理和總結。這篇綜述的目標是為了幫助學界和業界的研究開發人員更好得理解大模型的事實性,增加模型的知識水平和可靠程度。
論文鏈接:https://arxiv.org/pdf/2310.07521.pdf
開源鏈接:https://github.com/wangcunxiang/LLM-Factuality-Survey
作者單位:西湖大學、普渡大學、復旦大學、耶魯大學、微軟亞洲研究院等
一、引言
對知識的掌握一直是人工智能系統發展中的基礎追求。從歷史上看,McCarthy(1963)和 Newell(1976)的開創性工作都強調了知識表示和推理在 AI 系統中的重要性。例如,Cyc 項目開始了一個雄心勃勃的旅程,旨在編碼常識知識,希望為 AI 系統提供對世界的全面理解。與此同時,像 Miller(1990)的 WordNet 項目這樣的努力試圖創建捕捉詞語之間語義關系的詞匯數據庫,從而幫助 AI 系統掌握人類語言的細微差別。
而大型語言模型(LLMs)的出現,如 GPT-4,已經在學術界和工業界被視為一個重大的飛躍,特別是它們在掌握和應用知識上展現出巨大的能力和潛力。
使用 LLMs 作為知識載體的優勢是多方面的。首先,它們減少了構建和維護專用知識庫所需的開銷和成本。此外,LLMs 提供了一種更靈活的知識處理和利用方法,允許進行上下文感知的推理,并具有適應新信息或提示的能力。
然而,盡管 LLMs 具有無與倫比的能力,其產生非事實或誤導性內容的可能也讓人產生擔憂。此外,對一些特定領域知識或者實時事實知識的缺乏也極大限制了大模型的使用。一個常見的例子是,當你問 LLM 關于某個知名人士的問題,它可能會根據它所掌握的信息生成答案,但這些信息可能已經過時或者錯誤。如果該人士最近有重要的生涯變動,例如換工作或獲得獎項,而這些信息并不在 LLM 的訓練數據中,那么它生成的答案就會落后于現實。同樣,如果其訓練數據中包含了錯誤的信息,例如錯誤的出生日期或誤報的死亡,那么它也可能會復制這些錯誤。
作者旨在為 LLMs 中的事實性研究提供一個詳盡的概覽,深入探討四個關鍵維度:1)事實性問題的定義及其影響;2)評估事實性的技術及其定量評估;3)分析 LLMs 中事實性的基本機制并確定事實錯誤的根本原因;4)增強 LLMs 事實性的方法。
作者將 LLMs 的使用分為兩個主要設置:沒有外部知識的 LLMs,如 ChatGPT,以及檢索增強型 LLMs,如 BingChat。
本次調查的完整結構如下圖中所展示:
二、事實性問題
當作者談到大模型中的事實性時,指的是大型語言模型生成符合事實信息的內容的能力,這些事實信息包括常識、世界知識和領域事實知識,這些事實信息的來源可以是詞典、維基百科或來自不同領域的教科書。作者在上表中展示了 LLMs 中的各種事實性問題實例。例如,LLM 可能在特定領域的事實知識,如醫學或法律領域,上存在缺陷。此外,LLM 可能不知道其最后更新后發生的事實。還有一些情況,盡管 LLM 擁有相關的事實,但未能推理出正確的答案。在某些情況下,它甚至可能忘記或無法回憶之前學到的事實。
事實性問題與大型語言模型領域的幾個熱門話題密切相關,包括幻覺、過時的信息和領域特異性。這些話題的核心都是解決同一個問題:LLMs 生成與某些事實相矛盾的內容的潛力,無論這些內容是憑空產生的、過時的信息,還是缺乏領域特定的知識。因此,作者認為這三個話題都屬于事實性問題的范疇。
然而,值得注意的是,盡管這些話題是相關的,但它們各自有一個獨特的焦點。
幻覺和 LLMs 中的事實性問題都涉及到生成內容的準確性和可靠性,但它們解決的是不同的方面。幻覺主要圍繞 LLMs 生成無根據或不合理的內容。從 GPT4 technical report和一些Hallucination相關工作的定義中,作者將幻覺理解為模型傾向于 “產生與某些來源不符的無意義或不真實的內容”。這與強調模型學習、獲取和利用事實知識的事實性問題是不同的。具體對比如下表:
而過時的信息則關注先前準確的信息被更近期的知識所取代,或者新的不存在的事件發生的情況。最后,領域特異性強調生成需要特定、專門知識的內容。盡管存在這些差異,但這三個話題都有助于更深入地了解 LLMs 中更廣泛的事實性問題。
這篇綜述關注兩種設定:
1. 標準 LLMs:直接使用 LLMs 進行回答和聊天;
2. 檢索增強型 LLMs:檢索增強的生成。
三、事實性的評估
本章關注于大模型事實性的評估指標、基準測試、評估方法、特定領域的事實性評估。
事實性評估指標:
作者介紹了通常用于 NLG 的幾種自動評價指標,同時特別檢查了事實性的指標。
本文將這些指標分為以下幾類:
(1) 基于規則的評價指標;
(2) 基于神經網絡評價指標;
(3) 人類評價指標;
(4) 大模型評價指標。
事實性基準測試:
作者介紹了用于大模型事實性評估的基準測試,同時介紹了其任務類型、數據集、評價指標、以及目前代表性大模型在其上的表現,具體內容如下表所示:
事實性評估方法:
作者介紹了評估大模型事實性但沒有引入新評價基準的工作,重點在于那些開創了評估技術、指標的工作,或為 LLMs 的事實性評估提供了獨特見解的研究。
作者介紹了每個工作的任務、數據集、指標、是否有人類評估、被評估的大模型以及粒度,具體如下圖所示:
同時有一些增強模型事實性的工作也使用了一些傳統任務的數據集,作者也將這些工作的評價方式和數據集囊括其中,如下表所示:
特定領域的事實性評估:
針對特定領域事實性評估的基準。該表展示了領域、任務、數據集,以及在相應研究中評估的 LLMs:
四、事實性的分析
本章關注于大模型事實性的內在機制以及大模型產生事實性錯誤的原因。
具體來說,大模型事實性內在機制的分析包括大模型存儲、處理事實知識和產生事實性內容的機制,尤其是知識存儲、知識完整性和認知、上下文影響和知識沖突的方面的分析;而事實性錯誤的來源分為三個層面,分別是模型層面,包括領域知識缺乏、信息過時、記憶不全、遺忘和推理錯誤等;檢索層面,包括信息不足、擾亂性信息、信息不被模型接受、誤解相關信息等;推理層面,包括雪球效應、錯誤解碼和展示誤差等。
五、事實性的增強
本章關注于大模型事實性增強的方法,包括應用在獨立大模型(Standalone LLMs)上的和檢索增強的大模型(Retrieval Augmented LLMs)上,以及對領域知識增強的大模型(Domain Factuality Enhanced LLMs)也進行了詳細的討論。
當關注獨立大模型生成時,增強策略可以大致分為三大類:
1.從無監督語料庫中獲取事實知識:這涉及在預訓練期間優化訓練數據,例如通過去重和強調信息性詞匯。
2.從有監督數據中獲取事實知識:這一類別的例子包括有監督的微調策略,重點是使用帶標簽的數據進行微調,或從知識圖譜這樣的結構化知識中進行整合,或對模型參數進行精確調整。
3.生成時從模型中最好地提取事實知識:這一類是為了模型能夠輸出事實性知識,包括了像 Multi-agent 這樣的方法和創新的 prompts,也包括新的解碼方法,如事實核心抽樣。
當關注檢索增強的大模型生成時,增強策略可以大致分為三大類:
1.交互式檢索和生成:盡管檢索系統旨在獲取相關信息,但它們有時可能無法檢索到準確或全面的數據。此外,LLMs 可能難以識別或甚至被檢索到的內容誤導。實施交互式檢索機制可以指導 LLM 進行更好的內容生成。相關工作包括將 Chain-of-Thoughts 推理中間步驟應用到檢索中,以及使用基于 LLM 的 agent 框架,讓LLM和外部知識 API 進行交互,反饋修正LLM生成的事實錯誤。
2.讓 LLMs 適應檢索生成:僅僅使用 LLMs 中的檢索信息并不總是能增強它們回答事實性問題的能力,這可能是模型不能適應檢索到的數據。而有些適應策略能幫大模型更好得使用檢索的數據,具體來說,作者探索了三類方法:基于提示的方法、基于 SFT 的方法和基于 RLHF 的方法。這些方法增強了檢索的準確率,或是讓LLM有了引用檢索來源的能力。
3.從其他知識庫中檢索:這一類別包括從外部參數記憶或知識圖譜中檢索的方法,以增強模型的事實性知識。
作者選取了一部分事實性增強的方法,展示其效果,包括評估的數據集、指標,以及 baseline 效果和使用他們方法后的效果,如下圖所示:
領域事實性增強的大模型:
作者列出了針對特定領域事實性增強的 LLMs。其中涵蓋了多個領域,包括醫療 / 健康(H)、金融(F)、法律 / 法務(L)、地球科學 / 環境(G)、教育(E)、食品檢測(FT)和家居裝修(HR)。基于特定領域 LLMs 的實際應用場景和作者之前對增強方法的分類,他們總結了幾種常用的增強技術:
1. 持續預訓練:一種通過使用特定領域數據持續更新和微調預訓練語言模型的方法。這個過程確保模型在特定領域或領域內保持最新和相關性。它從一個初始的預訓練模型開始,通常是一個通用語言模型,然后使用特定領域的文本或數據對其進行微調。隨著新信息的出現,模型可以進一步微調以適應不斷發展的知識領域。持續預訓練是維持 AI 模型在快速變化的領域,如技術或醫學中的準確性和相關性的強大方法。
2.持續 SFT:另一種增強 AI 模型事實性的策略。在這種方法中,模型使用特定領域的標記或注釋數據進行微調。這個微調過程使模型能夠學習和適應領域的細微差別和特點,提高其提供準確和與上下文相關的信息的能力。當隨著時間的推移可以獲得特定領域的標記數據時,它尤其有用,例如在法律數據庫、醫療記錄或財務報告的情況下。
3.從零開始訓練:這涉及從最小的先驗知識或預訓練開始學習過程。這種方法可以類比為用一個空白的板子教機器學習模型。雖然它可能沒有利用預先存在的知識的優勢,但在處理完全新的領域或任務時,如果只有有限的相關數據可用,從零開始訓練可能是有利的。它允許模型從頭開始建立其理解,盡管它可能需要大量的計算資源和時間。
4.外部知識:這涉及用外部來源的信息增強語言模型的內部知識。這種方法允許模型訪問數據庫、網站或其他結構化數據存儲庫,以驗證事實或在回應用戶查詢時收集額外的信息。通過整合外部知識,模型可以增強其事實檢查能力,并提供更準確和與上下文相關的答案,特別是在處理動態或快速變化的信息時。
對于每一個特定領域大模型,作者列出了其領域、模型名稱、評估任務和數據集,以及各自的增強方法,如下表中呈現:
六、結論
在這次的綜述中,作者系統地探索了大型語言模型(LLMs)中事實性問題的復雜景觀。首先,作者定義了事實性的概念,然后討論了其更廣泛的影響。之后,作者進入事實性評估部分,包括基準測試、評估指標、特定的評估研究和特定領域的評估。隨后,作者深入探討了大模型事實性的內在機制。作者進行了事實性增強技術的討論,無論是對于純大模型還是檢索增強的大模型,并關注了特定領域知識增強的大模型。
盡管這次綜述中詳細描述了許多進展,但仍然存在一些巨大的挑戰。由于自然語言固有的復雜性,事實性的評估仍然是一個復雜的難題。此外,大模型如何存儲、更新事實知識和產生事實性內容的核心過程尚未完全揭示。盡管某些事實增強技術,如持續訓練和檢索,顯示出前景,但它們仍存在局限性。
展望未來,尋求忠實于事實的大模型既帶來了挑戰,也帶來了機會。未來的研究可能會更深入地了解大模型的神經結構,開發更穩健的評估指標,并在增強技術上進行創新。隨著大模型越來越多地融入數字生態系統,確保它們的事實可靠性將始終是至關重要的,這將對 AI 社區及其以外的領域產生影響。