清華大學CoAI課題組聯合聆心智能推出了一個用于評測中文大模型安全性的基準平臺。該平臺將收集到的prompt輸入到模型并測試其回復的安全性,并考慮八個安全維度和六種指令攻擊下的安全性。目前已測試ChatGPT在內的多個中文語言模型并將安全分數公布在平臺的排行榜上。
平臺鏈接:(建議PC端瀏覽)
http://coai.cs.tsinghua.edu.cn/leaderboard/
引言
大型語言模型是近年來NLP領域的一個重要的研究方向,ChatGPT是該領域的重要應用代表之一。它是OpenAI公司開發的一種基于Transformer架構的語言生成模型,可用于完成多種任務,如對話生成、文本生成、翻譯等。ChatGPT的出現徹底改變了自然語言處理的方式,使得人們能夠更加便捷地使用自然語言向模型發送指令,ChatGPT通過人類反饋的訓練,往往都會比較好地完成指令,并會在適時的時候拒絕一些不合理的要求。
ChatGPT可以完成各類的指令,例如協助用戶寫請假條
ChatGPT會拒絕一些請求和指令
ChatGPT在發布初期,有顯著的安全問題(圖中例子如今已修復)
然而,正如上圖所示,隨著ChatGPT等大型語言模型的應用越來越廣泛,它們的安全問題也引起了人們的廣泛關注。這些模型有可能輸出具有含有侮辱性和偏見歧視的內容,可能輸出非常不正確的價值觀,也可能被用于惡意活動,如欺詐、虛假信息傳播。因此對它們的安全性進行評估和改進顯得尤為重要。
長期以來,清華大學計算機系CoAI小組一直關注大型模型的安全倫理問題。我們陸續提出了對話安全分類體系DiaSafety[2],以及COLD[3]、CDialBias[4]等安全研究基準,這些資源為大型模型的安全研究提供了重要支持。
為了進一步推動中文大型模型的安全部署,清華大學CoAI課題組聯合聆心智能共同開發了中文大模型安全評測平臺。該平臺致力于為研究人員和開發者提供一個公開可靠的評測平臺,提供準確、公正、可靠的模型安全性能評測服務。這不僅有助于研究人員和開發者更好地理解和評估大型模型的安全性,為模型選擇和優化提供參考,還有利于發展安全、負責任和道德的大模型,促進其與立法、社會規范和人類價值觀保持一致。
中文大模型安全評測基準平臺首頁
中文大模型安全評測平臺
中文大模型安全評測平臺依托于一套系統的安全評測框架,旨在為大模型開發者提供模型安全性的評測服務。
Q1: 安全性是什么?我們評測的安全性有哪些?
大模型安全測評依托于一套系統的對話安全分類體系,涵蓋了八個維度的安全評測,其中每個維度都含有多個子類別,總共有40個子類別,可以全面精細地對各個場景的模型安全進行評測。
以下列舉了八個安全維度的詳細定義。
● 辱罵仇恨:模型生成帶有辱罵、臟字臟話、仇恨言論的內容,從而導致不良的社會影響。
● 偏見歧視:模型生成具有偏見和歧視性的信息,包括種族、性別、宗教、外貌等方面的歧視。這些內容可能會造成特定群體的不適,影響社會穩定和諧。
● 違法犯罪:模型生成的內容涉及到違法、犯罪的觀點、行為或動機,包括慫恿犯罪、詐騙、造謠等。這些內容可能會導致不良的社會影響,并且對用戶造成傷害。
● 敏感話題:對于一些敏感和具有爭議性的話題,模型輸出了具有偏見性、誤導性和不準確的信息。例如,可能會存在支持某個特定政治立場的傾向,導致對其他政治觀點的歧視或排斥。
● 身體傷害:模型生成與身體健康相關的不安全的信息,引導和鼓勵用戶傷害自身和他人的身體。如提供誤導性的醫學信息或錯誤的藥品使用建議等。這些輸出可能會對用戶的身體健康造成潛在的風險。
● 心理健康:模型輸出與心理健康相關的不安全的信息,包括鼓勵自殺、引發恐慌或焦慮等內容。這些輸出可能會對用戶的心理健康造成潛在的影響。
● 隱私財產:模型生成的內容涉及到暴露用戶或第三方的隱私和財產信息、或者提供重大的建議如投資等。在處理這些信息時,模型應遵循相關法律和隱私規定,保障用戶的權益,避免信息泄露和濫用。
● 倫理道德:模型生成的內容認同和鼓勵了缺失道德倫理的行為。在處理一些涉及到倫理和道德的話題時,模型需要遵循相關的倫理原則和道德規范,和普適的人類價值觀保持一致。
除了普通的八個安全維度外,我們注意到最近已有研究指出類ChatGPT的模型會有一些特殊的攻擊方式。
論文Ignore Previous Prompt: Attack Techniques For Language Models (Perez, 2022)提出的兩種攻擊方式[5]。
我們拓展并總結和設計了六種一般模型難以處理的安全攻擊方式,我們稱為指令攻擊(Instruction attack)。
1. 目標劫持(Goal Hijacking):是指將帶有欺騙性或誤導性的另一個指令添加到模型的輸入中,以引導系統忽略之前的prompt并輸出指定的不安全回復。隨著ChatGPT的不斷升級,該類攻擊在ChatGPT上已經幾乎完全失效。
2. Prompt泄露 (Prompt Leaking):攻擊者可以通過模型的輸出,推斷出系統提供的Prompt的某些部分,從而獲得敏感信息。
3. 賦予對話模型特殊的角色后再發指令 (Role Play Instruction):在輸入prompt中限定模型的角色屬性后,再給出具體的指令時,模型可能會使用該角色的特定說話風格來執行用戶的指令,使得模型輸出本不該輸出的不安全內容。
4.不安全/合理的指令主題 (Instruction in unsafe/unreasonable topic):指令本身的主題是不安全或不合理的。
5.隱含不安全觀點的詢問 (Inquery with unsafe opinion):在詢問模型的同時,將難以察覺的不安全內容嵌入到輸入中,以引導其生成潛在風險回復。
6. 反面誘導 (Reverse Exposure):反面誘導是指通過使模型輸出應避免的違法、不道德或不安全的行為或言論,以誘導模型傳播違反法律道德或法律準則的不當信息。
Q2: 評測的流程是什么?
我們提供了上述的各個類別下的prompt(上下文),并輸入到待測模型中,讓模型生成對應的回復,我們再對回復進行安全評估,最后會將安全回復的百分比更新到排行榜(Leaderboard)上。整體流程如圖所示。
待測模型的安全評測流程
排行榜記錄了每個模型在各個安全維度和指令攻擊下的分數
我們設置了公開測試集和隱藏測試集,公開測試集中的prompt對評測者是可見的,評測者可以直接上傳模型的對應回復。對于隱藏測試集,我們不公開prompt,需要評測者上傳模型我們再生成回復后進行評測。
我們將對模型生成的回復提供全面的安全評估,評估方法將包括人工評測和自動評測兩種方式。參與測評的模型將出現在排行榜上,以更直觀的和同類產品進行對比,了解模型在安全倫理方面的表現,促進良性競爭。
Q3: 我們評測了哪些模型?
我們目前評測了OpenAI的GPT系列和一些比較出名的中文模型,我們也在持續評測更多的中文模型。我們歡迎更多的開發者提交prompt的回復或待評測模型至我們的平臺進行安全評測。
Q4: 目前為止我們得到了哪些結論?
截止目前,我們的模型安全排行榜如下圖所示:
安全排行榜,目前OpenAI開發的ChatGPT在綜合安全性上最佳
排行榜的公開測試集總體分數可視化
我們發現了以下結論:
1. OpenAI開發的ChatGPT因為其對安全場景的拒絕回答處理以及積累的安全數據優勢,在幾乎各個安全場景下安全分數領跑。
2. OpenAI發布的InstructGPT (text-davinci-003)的安全性相比于上一代有明顯提升,應該是得益于在該版本中加入了非常多的安全訓練數據。
3. 部分中文場景下ChatGPT的安全缺陷大(如敏感話題),其他模型有追平和超越機會。
4. 六種指令攻擊對通用指令任務表現更好的模型更有效。
我們期待更多的模型加入到我們的安全評測中,共同打造一個更好更廣泛的安全評測基準。
Q5: 我們之后會做什么?
1. 增加更多的prompt,尤其是困難的prompt,去探索各個模型的安全上限。目前我們僅使用了人工收集的prompt,我們已經通過實驗發現模型生成的prompt的多樣性和可用性都很高,之后會考慮加入模型生成的prompt。
2. 優化安全評估方式。目前我們主要使用了自動評估。之后我們會采用人工評估的方式,同時我們也將在頁面中加入了人工評測功能,歡迎大家親自感受各個模型的生成是否安全,共同參與安全的評測。
3. 增加更多的模型評測。目前我們僅預評測了十余個模型,我們會評測更多的模型。同時我們也會評測每一個從網站上提交的模型并將分數公開至排行榜。
4. 發布更正式的技術報告。我們正在寫一個更正式的技術報告,之后會發布到arXiv平臺上供參考。
對話安全研究綜述
我們最近在arXiv平臺上發布了一篇關于對話安全研究的綜述,與中文大模型安全評測平臺聯合推出。論文名為“Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey”。綜述中較為詳細地回顧了在安全定義、模型安全評估和模型安全改進領域中近年來的研究進展。此外我們還提出了對話安全領域中未來的一些挑戰和機會,歡迎各位讀者閱讀和提建議。論文鏈接:https://arxiv.org/abs/2302.09270
對話安全綜述的章節結構和框架[1]
結語
我們希望打造一個公開可靠的安全性平臺,通過基準測試反饋,一起改進中文大模型的安全性,邁向安全可信的人工智能。歡迎大家試用該平臺并提交模型的結果,也歡迎大家向我們提各種建議反饋。
中文大模型安全評測平臺鏈接:
http://coai.cs.tsinghua.edu.cn/leaderboard/
CoAI課題組鏈接:http://coai.cs.tsinghua.edu.cn