精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
也讀Lawyer LLaMA法律領域微調大模型:從訓練數據、模型訓練到實驗效果研讀

在前面的文章《LaWGPT:面向法律領域的兩大微調模型介紹及今日前沿大模型動向速遞》中,我們從原始數據、模型訓練以及模型效果三個方面對兩個法律領域的微調模型:pengxiao-song/LaWGPT以及LiuHC0428/LAW-GPT,進行了介紹,但這兩個項目相對簡單,也并未做許多深入的對比實驗。

實際上,領域微調模型,尤其是基于llama的領域微調模型中存在著諸如增量預訓和垂直語料預訓、微調SFT的數據準備和訓練問題,關于不同階段數據對模型的影響到底如何,這些很有趣。

最近一篇工作《Lawyer LLaMA Technical Report》,文章地址:https://arxiv.org/abs/2305.15062,以一個比較具有結論性的工作被放出來,讀了一下,覺得很不錯。

該工作針對大模型部署到特定的領域,如法律或醫學時所面臨著特定領域知識不足的挑戰,以及利用這些知識來解決領域相關問題的能力不足的問題,重點放在法律領域,探討了如何在持續訓練階段注入領域知識,以及如何設計適當的監督微調任務來幫助模型解決實際問題,做了一些對比實驗,會有一些啟發。

因此,本工作對其進行介紹,供大家一起參考,該工作可以仔細品一下。

項目地址:https://github.com/AndrewZhe/lawyer-llama

一、工作背景概述

先看對比效果,圖1顯示了在BELLE上預先訓練的LLaMA和Lawyer LLaMA的回答。

對于問題A,正確的答案是Lawyer LLaMA提供的,即男性的法定結婚年齡是22歲,女性是20歲。顯然,BELLE缺乏這種特定領域的知識,只能回答18歲,也就是具有完全民事行為能力的年齡。

另外,在問題B中,即使提供了必要的法律條文,BELLE也不能算出用戶查詢中最重要/最相關的部分,即妻子在不到一年前生下孩子,因此丈夫不允許在這個時候提出離婚。

BELLE的糟糕表現表明在一般領域預先訓練的LLM不能直接應用于解決法律問題。

要將大型模型應用于法律領域,它們需要具備以下三種能力,這個可以重點關注:

1. 傳達準確/精確的意思,沒有歧義。在法律領域,僅僅替換一個詞就可以影響法律關系和義務的建立,有可能導致巨大的不同后果。例如,定金和訂金在中文中只有一個字的差別,但它們在合同法中的含義和法律效力卻完全不同。 

2.理解和區分法律術語。有許多概念只出現在法律領域,如法人(juridical person)。即使是廣泛使用的詞匯,其含義在法律領域也可能略有不同。例如,妻子這個詞在日常生活中不一定意味著法律上承認和保護的婚姻關系,但在特定的法律領域,當提到妻子時,它肯定意味著合法的婚姻關系。

3. 能夠分析實際案例。現實世界的情景總是復雜多樣的。模型需要具備識別法律術語和應用法律理論來分析具體問題的能力。

為了建立一個能夠正確應用法律知識、解決法律領域實際問題的模型,該工作根據LLaMA模型,采取了以下四個步驟:

1、注入法律知識:收集大量的法律領域的原始文本,如法律條文、司法解釋和中國人民法院的司法文件。然后,應用繼續訓練來幫助模型學習法律知識。

2、訓練學習特定領域的技能:使用領域知識的能力可以在解決實際任務時學習,如概念解釋、案例分析和法律咨詢。因此,收集了一組這些任務的真實查詢,并使用ChatGPT1生成相關的答案。然后利用這些數據進行監督下的微調,教模型如何用適當的知識來解決特定領域的任務。

3、用外部知識進行增強:為了緩解大型語言模型的幻覺問題,并使模型能夠產生更準確和忠實的回答,另外引入了一個信息檢索模塊。在生成每個回復之前,首先利用用戶的查詢和上下文信息來檢索可以作為查詢證據的相關法律文章,然后在這些法律文章的基礎上進行回復。

二、先看數據情況

1、預訓練語料庫

為了提高模型在中文法律咨詢中的表現,該工作采用了兩種語料對LLaMA模型進行持續預訓練。

首先在一個普通的多語言語料庫上訓練模型,以提高其代表中文的能力。然后,使用一個中文法律語料庫,用法律知識來增強模型。其中:

1)多語言通用語料庫Multilingual General Corpus 

由于LLaMA主要是在英語和其他使用拉丁字母或西里爾字母的語言語料庫上進行預訓練的,因此它在理解和生成中文句子方面的表現可能并不完美。

為了解決這個問題,同時收集中文預訓練語料和也收集英文語料庫進行記憶重放,以避免災難性的遺忘。

具體的,為了構建中文通用語料庫,該工作從WuDaoCorpora、CLUECorpus2020和維基百科的簡體中文版本中抽取文章。

對于英語通用語料庫,從C4語料庫中抽取文章。

2)中文法律語料庫Chinese Legal Corpus 

為了用中國的法律知識來增強模型,該工作從中國法院的網站上收集文章,包括判決書、法律文章、司法解釋、法院新聞和各種法律普及文章。

2、國家司法考試

國家司法考試是一種閉卷考試,申請人必須通過考試才能獲得律師或法官資格,是對對法律從業人員的法律知識和專業技能的全面評估,因此,模型可以通過對這類考試的問題進行練習來學習法律技能。

具體的,該工作使用JEC-QA,JEC-QA包括26,365道選擇題和多選題,但不包含任何對答題者的解釋。

為了提供更詳細的證據和如何解決這些問題的推理程序,該工作要求ChatGPT為每個答案提供解釋。

數據地址:https://jecqa.thunlp.org/,樣例如下:Question: 關于交通肇事罪與其他犯罪關系的論 述,下列選項是正確的嗎?丁酒后駕駛交通肇事 后,繼續駕車到處沖撞,造成五死九傷,應定交 通肇事罪。

Response: 根據《中華人民共和國刑法》規定,醉 酒后駕駛機動車輛,發生重大交通事故,構成交 通肇事罪。丁酒后駕駛發生交通事故,已經構成 交通肇事罪。但是,丁繼續駕車到處沖撞,造成 五死九傷,已經超出了交通肇事罪的范疇,應當 認定為危害公共安全罪。因此,丁應當被定罪為 危害公共安全罪,而不是交通肇事罪。

3、法律咨詢技能微調數據

該工作從法律咨詢的開源數據集中抽取種子問題(Chen,2018),并使用ChatGPT來生成回復,由此構造SFT數據集。

為了保證單輪和多輪能力,該工作同時收集了單輪和多輪對話,同時為了提高生成的回答的忠實度,為給定的問題搜索相關法律文章,并將檢索到的法律文章被添加到輸入提示中,幫助ChatGPT生成更忠實的回答。

數據地址:https://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/OLO4G8

1)單輪問答數據的構造

為了生成對法律咨詢問題的回應,要求ChatGPT扮演律師并回應客戶。并在輸入提示中,注入生成的回答應該滿足的六個要求:

(1)正確引用法律條文;

(2)根據案件事實和法律條文給出有根據的分析;

(3)全面回答并分析潛在的可能性;

(4)提出適當的問題來挖掘事實以幫助進一步回答;

(5)使用平實的語言;

(6)給出初步法律意見和咨詢結論。

舉例如下:ChatGPT對一個關于法定結婚年齡的問題產生了一個回答,引用了《中華人民共和國婚姻法》中的一篇法律條文,并指出了幾種特殊情況。Question: 我和我對象想結婚,我想問一下,結婚 的法定婚齡是幾歲啊

Response: 根據《中華人民共和國婚姻法》規定, 男女結婚的法定婚齡為男滿22周歲,女滿20周歲。未達到法定婚齡的人不得結婚。但有特殊情況的可以提前結婚,需要得到父母或者監護人的書面同意,并經當地婚姻登記機關審查批準。

2)多輪對話數據的構造

為了生成法律咨詢問題的多輪對話,該工作設計了兩個不同的提示,要求ChatGPT分別扮演客戶和律師的角色,并交替使用這兩個提示,連同對話歷史,作為ChatGPT的輸入。

如下所示,客戶在律師的第一次回答后提出了一個關于婚姻程序的后續問題。Client: 我和我對象想結婚,我想問一下,結婚的 法定婚齡是幾歲啊

Lawyer: 根據中華人民共和國婚姻法,男女都要 滿22周歲才可以結婚,不足22周歲的男女不得自 行結婚。但是,如果特殊情況需要提前結婚, 可以向婚姻登記機關提出申請審核。如果您有其 他方面的疑問,也可以告訴我,我可以幫助您進 行解答。如果您有其他方面的疑問,也可以告訴 我,我可以幫助您進行解答。

Client: 我知道,聽別人說婚姻需要提前辦理一些 手續,那我需要準備哪些證件和資料呢?是否需 要提前辦理健康檢查和體檢?

Lawyer: 是的,婚姻登記需要您準備一些證件和資料,包括:...

3)加入外部知識進行檢索增強

對于單輪問答時,將由法律文章檢索模型選擇的前3篇相關法律文章附加到輸入提示中。

對于多輪對話,假設對話的主題不會改變,并在對話中使用相同的3篇法律文章。

例如,在下面的例子中,檢索了3篇法律文章作上下文進行輸入,可以看到,結果也很有趣。RelatedArticles: 《民法典》第一千零四十七條: 結婚年齡,男不得早于二十二周歲,女不得早于 二十周歲。 《民法典》第一千零四十六條:結婚應當男女雙 方完全自愿,禁止任何一方對另一方加以強迫, 禁止任何組織或者個人加以干涉。 民法典》第三百零四條:共有人可以協商確定分 割方式。達不成協議...

Client: 我和我對象想結婚,我想問一下,結婚的 法定婚齡是幾歲啊

Laywer: 根據《民法典》第一千零四十七條規定, 結婚的法定婚齡為男不得早于22周歲,女不得早 于20周歲。如果未到法定結婚年齡而堅持結婚, 將被認定為無效婚姻。 請問您和您的對象的年齡是否已達到法定婚齡? 如果未達到,建議您等待至法定婚齡再考慮結婚 的問題。

Client: 我們都滿足法定結婚年齡了,但是我們的 家長反對,他們說我們還太年輕,不應該急于結 婚,你怎么看?

Lawyer: 根據《民法典》第一千零四十六條規 定,結婚應當男女雙方完全自愿,禁止任何一方 對另一方加以強迫,禁止任何組織或者個人加以 干涉。因此,如果您和您的對象完全自愿并且已 達到法定結婚年齡,您們可以合法結婚,即使家 長反對。當然,作為尊重家長、保持良好親情關 系的一種方式,可以嘗試與家長溝通,了解其反 對的原因,并考慮如何解決其關注的問題。如果 家長反對并不合理,您和您的對象有權利自主決 定。

最后,總共收集了大約16,000個單輪數據和5,000個有2或3輪的對話。

下面是github具體開放的數據例子:

三、再看模型訓練過程

下圖3說明了微調開源模型LLaMA的步驟,比較有意思,從S1逐步走到S12。

可以看到,訓練是逐步進行的,改工作做了系列對比實驗

表1中顯示了模型在不同階段對各種NLP任務的表現,其中每個階段的細節si可以參考圖3。(1)~(6)代表了在不同階段用于訓練律師LLaMA的預訓練語料或監督微調數據集。(1)為多語言通用語料庫,(2)為中文法律語料庫,(3)為通用SFT數據集,(4)為司法考試和法律咨詢,(5)為多輪法律對話,(6)為多輪法律對話中增加了檢索的法律文章。勾號意味著相應的語料庫/數據集已在前一階段使用,而花號意味著該語料庫/數據集在當前階段被用于訓練。

1、提高LLaMA的中文能力s0->S1

由于LLaMA在訓練過程中使用的中文文本很少,最初的任務是提高LLaMA對中文的理解能力(圖3-s1)。

為了提高LLaMA的中文理解和生成能力,在中文通用語料庫上對LLaMA進行了持續的預訓練。

里面的論述很有趣,遇到2個問題:

問題1:許多漢字沒有被包含在LLaMA的詞匯表中。實際上,只有700個漢字被包括在內,而且LLaMA使用字節來對UTF-8編碼中的其他漢字進行解構。為了提高中文句子的解碼效率,Cui等人通過增加常見的漢字來擴大詞匯量,并對這些新增加的單詞嵌入和模型參數進行重新訓練。

然而之前的研究表明,擴大詞匯量似乎并沒有為下游的中文NLU任務帶來進一步的改善。

因此,我們選擇在訓練期間保持LLaMA的詞匯量不變。

問題2:是否應該只在中文語料庫上繼續進行預訓練,還是也應該加入英文文本。

該工作決定使用英文和中文的混合語料,因為該工作相信許多復雜的推理能力可能來自于英文的預訓練,并希望模型在持續的預訓練中保持這些能力。

2、注入法律知識S4

如圖3-s4,為模型補充它所缺乏的中文法律知識。為了彌補原LLaMA模型中法律知識的不足,收集各種法律領域的純中文文本,包括法律文章和司法解釋,以進一步持續訓練,并增加一些通用的文本,以防止模型對法律語料庫的過擬合。

3、學習推理技能S7

解決實際問題需要模型具有法律領域的推理能力,通過案例分析等下游任務教模型使用這些知識來解決實際問題,從下游任務中選擇有監督的數據,并按照指令-調整的方法訓練我們的模型。

在這一步,使用從JEC-QA中收集關于區分術語和案例分析的問題-答案對,并要求ChatGPT為它們提供詳細的解釋。在訓練過程中,QA對被視為指令,我們的模型被要求給出解釋。

4、學習真實回復技能S9

收集一組真實世界用戶與律師協商的數據 ,并通過ChatGPT獲得相應的回復。然后,使用收集到的監督數據來訓練模型為特定查詢生成合適的回復。

5、提高模型反應的可靠性S12

如圖3-S12所示,為了進一步提高模型反應的可靠性,引入了一個法律條文檢索模塊,使模型能夠產生可信回復。

這里有個比較有趣的結論:

初步實驗表明,即使模型在持續的訓練階段反復學習這些文章,它也不能在生成響應時正確使用它們。它可能會引用不相關的法律條文,或者用一個語義相似的詞來代替一個術語,而這個詞在法律領域中的含義是截然不同的。

為了使該模型產生更可靠的反應,將其與法律文章檢索模塊相結合,具體的,為了訓練檢索模塊,首先收集了一些用戶的法律咨詢問題,并要求法律專業人士為每個問題標注最多3篇必要的法律文章來回答。然后訓練一個基于RoBERTa的法律文章檢索模型,該模型在被保留的測試集上可以達到0.85的召recall@1和0.94的recall@5。

并且,改工作還發現,直接將檢索到的法律條文和用戶的問題串聯起來作為新的輸入時,該模型傾向于在其響應中引用所有提供的法律條文,而不區分它們是否與當前的情景真正相關。

四、再看實驗效果及結論

改工作評估lawyer-LLaMA在不同的訓練階段的zeroshot表現,收集了不同領域的英文和中文通用任務,包括自然語言推理、情感分析、常識推理、對話問題回答等。

1、對一般任務的評估

先看在不同的語料庫或不同的監督-微調數據集上持續訓練LLaMA時,它解決一般NLP任務的能力如何變化。

例如,我們可以研究在不斷對中文語料進行預訓練之后,英語推理任務的模型性能是否會惡化。

如表1所示:

首先,比較s0和s1的結果,可以發現LLaMA在C3上獲得了+5.3%的準確率;英語常識推理方面,s1在SciQ和PIQA的時的表現也不比s0差。這表明對多語種語料庫的預訓練可以增強模型對中文的表達能力,而不會犧牲其對英文的表達能力。

其次,比較s2和s3,s7和s9/s8/s6的CMNLI的結果,可以發現s3/s9/s8/s6的模型,經過司法考試的例子和法律咨詢的微調,可以更好地處理中文NLI任務,準確率提高到+9.3%。

最后,該模型不能處理英語NLI和情感分析任務。在所有階段,該模型只能對所有的MRPC實例輸出Yes,而當不斷地訓練LLaMA時,它對SST-2也不能獲得明顯的改善,猜測這是因為沒有足夠的英語NLI和情感分析的SFT例子。那么該模型就不能理解這種任務的提示中的指令。

2、對中國法律任務的評估

除了處理一般的NLP任務外,也關注律師LLaMA是否能夠學習法律知識并解決特定領域的任務。因此,構建了幾個中文法律任務來評估模型在特定領域的表現。

具體的,創建了基于中國司法考試(JE)客觀題的多項選擇任務。對于司法考試的每一個問題,都有四個由人寫的選項,其中一至四個選項可以是正確答案。

這里劃重點,對于問答題,常規的做法都是構造prompt直接進行預測,然后通過解析答案獲得最終答案,這里采用的是困惑度排序取最優的方式,該模型只能選擇一個困惑度最低的答案。因此,只評估有一個正確選項的法律任務的問題。

進一步的,這些問題可以分為兩部分:JE-C(概念辨析)和JE-S(情景規劃),分別記為JE-C和JE-S。

由于中國法律語料庫和法律咨詢數據集主要集中在婚姻法上,所以也考察了LLaMA律師在每個訓練階段解決有關婚姻法任務的能力。在這項工作中,從中國法院的網站上收集判決書,并設計了分類任務:預測婚姻的原因。

在數據集構造上,為了減少噪音,只選擇民事一審的判決書,總共收集了4,875份關于婚姻的判決書來構建一個4類任務(CAM),以及10K份關于財產的判決書來構建一個10類任務(CAP)。

從表1中關于每個中文法律任務的結果來看,可以看到:

首先,與s0相比,在中國法律語料庫上持續的預訓練可以為s4的模型帶來超過+21.6%的CAM準確率,這表明該模型可以從中文法律語料庫中學習有關婚姻的知識。

其次,與s0相比,在s1階段,在對多語種通用語料庫進行訓練后,模型在CAM和CAP上的表現明顯惡化。

盡管C3的結果表明,模型在s1時比s0時能更好地表示中文文本,但它仍然失去了理解判斷文檔的能力(這里指的是分類能力)。這里猜測LLaMA的預訓練語料庫可能包含一部分法律文本,然后原始的LLaMA可以處理如CAM和CAP的簡單法律分類任務,但是多語言通用語料庫中的文本主要是新聞和維基百科的網頁,與法律文本屬于不同的領域,這就是個典型的遺忘問題。

最后,比較JE-C和JE-S在s0/s4/s7的結果,發現用中文法律文本和一般的SFT例子訓練LLaMA可以給JE-C帶來超過+3.9%的準確性,給JE-S帶來+2.85%的準確性。這表明該模型在注入法律知識后可以更好地處理司法考試等法律任務。不過,當該模型以對話的形式在SFT數據上進行訓練時,它似乎無法解決司法考試,這可能是由于考試問題和咨詢問題之間的不相似性,這似乎表明了下游任務數據和原數據需要盡可能保持一致,才能有實際效果。

總結

本文主要介紹了《Lawyer LLaMA Technical Report》這一工作,其最核心的結論在于,通過加入檢索模塊,可以提升問答的可靠性,并且通過引入垂直領域的預巡數據和微調數據,都可以提升其領域性能。但在具體實踐中,還需要考慮到領域數據和通用數據的組成情況,以及與下游任務之間的對齊情況。

當然,這類實驗總是有趣的,之前belle的工作也得到了微調的結論,大家可以看之前的介紹文章。

參考文獻

1、https://github.com/AndrewZhe/lawyer-llama

2、https://arxiv.org/abs/2305.15062

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
從BERT到ChatGPT,北航等9大頂尖研究機構全面綜述:那些年一起追過的「預訓練基礎模型」
Paper:《Instruction Tuning for Large Language Models: A Survey—大型語言模型的指令調優的綜述》翻譯與解讀
1760億參數,支持中文,可商用!高性能類ChatGPT開源模型
ChatGPT智能系統的挑戰與反思
ChatGPT之后,值得關注的垂直領域大模型
深度學習被「神化」!如何「客觀」看待深度學習的應用場合及作用?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 公主岭市| 和政县| 赤水市| 临桂县| 洛川县| 乌兰县| 华容县| 公安县| 油尖旺区| 大竹县| 高邮市| 囊谦县| 临江市| 湄潭县| 双辽市| 合江县| 壶关县| 仁化县| 石家庄市| 永川市| 叙永县| 昌宁县| 右玉县| 乌审旗| 平阴县| 古丈县| 鲁甸县| 会理县| 乌鲁木齐市| 新营市| 大连市| 龙口市| 克什克腾旗| 镇江市| 昌图县| 石河子市| 浦江县| 苏州市| 淮北市| 古交市| 泾川县|