中文預訓練語言模型,參數量也上了千億,還是為業界定制的。
如果你是一位 NLP 從業者,你可能發現,最近的中文 NLP 社區有點熱鬧:「中文版 T5」、「中文版 GPT-3」以及各種大規模中文版預訓練模型陸續問世,似乎要帶領中文 NLP 社區跑步進入「練大模型」時代。在此背景下,中文語言理解測評基準「CLUE」也經歷了它的前輩「GLUE」所經歷過的盛況:一個模型的冠軍寶座還沒坐熱,就被一個更新的模型擠了下去。在最近的 CLUE 榜單上,「盤古」在總榜、閱讀理解排行榜和分類任務排行榜上都位列第一,總榜得分比第二名高出一個百分點。除此之外,它還拿到了 NLPCC 生成任務的第一名,文本摘要的分數相比基線提升了 60%。在HDC.Cloud大會上,余承東發布由華為云和循環智能聯合開發的盤古NLP 模型這是業界首個千億參數的中文大模型,擁有 1100 億密集參數,由循環智能(Recurrent AI)和華為云聯合開發,鵬城實驗室提供算力支持。為了訓練這個模型,田奇(華為云人工智能首席科技家)與楊植麟(循環智能聯合創始人)聯合帶領的研究團隊花了近半年的時間,給模型喂了 40TB 的行業文本數據和超過 400 萬小時的行業語音數據。所有這些努力,都是為了克服 GPT-3 的落地難題。「GPT-3 是一個學術界的產物,是一個學術研究的重大突破,但在落地過程中仍然面臨很多問題。」楊植麟告訴機器之心,「導致這個問題的原因是,學術研究往往以人工收集構造的相對通用化的數據集作為 benchmark,往往以較理想化的設定來進行實驗(比如類別均衡的多分類問題),這些都跟實際應用有出入。盤古模型實際上針對性地解決了這些問題。跟以往的大規模預訓練模型不同,盤古模型從第一天起就是奔著商業化落地的角度進行設計和研發。」作為一個深耕 NLP 企業服務的團隊,循環智能看到了 GPT-3 等大規模預訓練模型的潛力,但也看到了它們在落地過程中的局限。「盤古」模型正是為了克服這些局限而生。在最近的一次訪談中,循環智能 NLP Moonshot 團隊向機器之心介紹了這個項目的初衷、挑戰和具體的解決方案。GPT-3 是 OpenAI 在去年 5 月份發布的語言模型,不僅可以答題、翻譯、寫文章,還帶有一些數學計算的能力,因此在人工智能領域掀起了一場巨浪。GPT-3 很強,這是社區公認的事實,所以循環智能最初是想開發一個中文版 GPT-3。但在開發過程中,他們發現:GPT 類模型在復雜的商業場景中既不好用,也不高效。第一個問題是:GPT 對于復雜商用場景的少樣本學習能力較弱。少樣本學習是指利用少量標注樣本完成模型的學習任務。在高質量數據緊缺、經濟效益至上的產業界,這一能力非常重要。此前,Schick 和 Schutze 已經在 PET 工作中證明:在少樣本學習方面,千億參數的 GPT-3 模型的語言理解能力還比不上億級參數量的 BERT。在復雜的企業級落地場景中,這一缺陷將使得模型在利用數據方面非常低效。比如在下面這兩段保險場景對話中,模型需要判斷服務人員是否正確講解了「現金價值可以通過退保的形式返回」這個專業保險知識。正例需要完整說明以下方面:(1)要用退保的形式;(2)退回的是現金價值。服務人員:「它有一個養老的功能,以后您不想保了,那么到一定年限,到現金價值的高峰期間可以退保,拿到現金價值 」服務人員:「您如果說保的時間,不會,因為交的錢是固定的。只是您這個保單對應的現金價值是每年往上漲的」
顯然,對話 1 同時提及了退保和退回現金價值兩個主要因素,應被判斷為正例;而對話 2 只提及了現金價值,并不涉及現金價值贖回的介紹,應被判斷為負例。但針對 30 億參數的中文 GPT 模型 CPM 的少樣本學習測試發現,該模型并沒有給出正確答案。再比如,在下面這段教育場景對話中,模型需要判斷課程顧問是否推薦了全科輔導班。如果推薦了,則判斷為正例,否則判斷為負例。課程顧問:「啊沒有那么多,你是考慮單科輔導班還是全科輔導班?」
顯然,在這段對話中,課程顧問只是單純詢問,并未體現推薦,因此應被判斷為負例,但 CPM 依然沒有正確識別。除了少樣本學習,實際應用中還存在一些需要通過大量樣本進行學習的場景,這就要涉及到模型的微調問題。但現實是,GPT-3 對于微調并不友好,在落地場景中難以進一步優化,這也是 GPT 模型存在的第二大問題。商業場景對于模型的準確率和召回率有著很高的要求。雖然 P-Tuning 等工作提出了針對 GPT-3 的新型微調方式,但在面對復雜場景時,我們仍然難以通過使用更多標注數據對 GPT-3 進行進一步優化。「比如說我們現在用到的一個場景里面,通過少量樣本得到 GPT-3 的準確率是 65%。在學術研究的語境下,這個準確率聽起來也不是很差,但是你實際場景就沒法用。這時我們要加一些數據對模型進行優化,要做到 90% 才能用,但我們實驗發現 GPT-3 結合微調的提升并不明顯,這就大大限制了它的使用場景。」楊植麟表示。GPT-3 是一個百科全書式的存在,但在很多落地場景中,我們更需要的是一個領域「專家」。為了打造這個「專家」,我們需要將行業的知識庫接入 AI 流水線,將通用 AI 能力跟行業知識相結合,實現基于行業知識的精確理解和預測。「例如,在實時輔助場景中,我們希望模型能夠實時地給銷售推送知識、講解要點、推薦產品,通過增強智能的方式提升銷售能力。在這個場景中,就需要大量外部知識的接入,才能達到較好的推薦效果。」循環智能資深算法總監陳虞君解釋說。但與之相矛盾的是,GPT-3 只能進行直接的、端到端的生成(把知識庫做成很長的一段文字,直接放進 prompt 中),難以融入領域知識,這便是它的第三大問題。在這三大問題的限制下,GPT-3 的強大能力很難直接在商業場景中得到發揮。好用、高效是業界對一個模型的基本要求。要達到這個要求,首先要克服以上三大問題,這也是「盤古」模型的創新之處。為了克服少樣本學習難題,循環智能的研究團隊進行了兩方面的努力。一是利用遷移學習。與 GPT-3 的少樣本學習方式不同,盤古模型的技術路線是通過元學習的方式在任務之間進行遷移,從而實現少樣本學習的目標。這種方式可以更好地利用任務之間的相似性,得到更好的少樣本學習結果。二是將 P-tuning、priming 等最新技術融入到盤古的微調框架中,進一步提升微調效果。下面兩個圖展示了 CNN、中文版 GPT-3(CPM)、BERT、RoBERTa 和盤古在少樣本場景下的學習能力。復雜商用場景實測不同模型少樣本學習達到的 F1 結果(100%表示跟 full label 結果相同)
各模型復雜商用場景實測得到目標 F1 結果所需的平均樣本量
從第一幅圖可以看出,在樣本極少的情況下,盤古的少樣本學習能力遠超上述 GPT 系列和 BERT 系列。第二幅圖則顯示,要得到相同的 F1 結果,盤古所需的數據量僅為中文 GPT-3 的 1/9,實現了近 10 倍的生產效率提升。「也就是說,以前可能兩個星期才能完成的一些工作,現在你用一兩天就可以做完。所以,這個模型實際上有很大機會去變革生產效率。」循環智能資深算法總監杜羽倫解釋說。首先,為了增強預訓練與微調的一致性,研究者在預訓練階段加入了基于 prompt 的任務。Prompt pattern 的選擇和數據增強機制保證了微調階段使用的 prompt 得到充分的預訓練,大幅度降低了基于 prompt 的微調的難度。在下游數據充足時,微調難度的降低使得模型可以隨著數據變多而持續優化;在下游數據稀缺時,微調難度的降低使得模型的少樣本學習效果得到顯著提升。其次,研究者觀察到,隨著預訓練模型規模的增大,微調難度不斷上升,過擬合十分嚴重。因此,他們分析了過擬合的主要來源,采用了 gradient dropout 等機制對微調過程進行正則化,可以較大程度緩解過擬合的問題。下圖展示了研究團隊針對銷售線索評分場景進行實測的結果。在銷售線索評分場景中,數據相對充裕,模型通過分析數十萬條歷史數據的成單情況對每條銷售線索的客戶意向度進行評分。在這種情況下,由于更適合微調,盤古模型在最終的銷售轉化率上取得較大提升。基于對話內容的銷售線索評分場景中,使用不同模型的實測銷售線索轉化率對比
行業知識來源于行業數據。盤古團隊使用了大量行業語音和文本數據。這些數據來自銷售、客服等企業與客戶之間的溝通場景,涵蓋金融、保險、教育、地產、本地生活、電商、汽車等諸多行業,構成了龐大的行業知識庫。借助這些數據進行微調,模型的行業特定意圖和知識理解能力大幅提高。此外,與 GPT-3 直接使用端到端生成的方式不同,由于盤古模型同時具備生成能力和少樣本理解能力,開發者可以根據業務需求靈活搭建 pipeline,包括與行業知識庫進行對接,實現行業知識與通用知識的融合,最大程度上滿足個性化的業務需求。可以說,與 GPT-3 等模型相比,「盤古」是專門為產業落地所打造的,其終極目標就是「打通 NLP 技術與產業的最后一公里」。模型有了,之后要怎么用呢?在這方面,循環智能 NLP Moonshot 團隊給出了正在做的兩個方向。在過去的幾年中,企業通過部署 AI 客服、AI 外呼系統,取代了一小部分人員的簡單工作。但很多情況下,客戶并沒有感覺自己的服務體驗得到了改善,尤其是在涉及高附加值行業的產品銷售與服務時。以銀行、保險、房產和教育等國計民生領域為例。在這些領域,企業意識到只有通過人與人的溝通過程,才能與客戶建立更緊密的聯結。如果 NLP 技術可以在提升員工專業度和產能方面發揮作用,就可以幫助企業為其客戶帶來更好的體驗,創造更大的價值。他們的思路可以概括為:借助先進的 NLP 技術,從企業與客戶溝通時產生的對話數據中挖掘優秀員工的優秀實踐,把這些優秀實踐變為企業資產,然后通過更有針對性的培訓和「實時輔助」系統,將優秀實踐傳遞給每一名普通員工,提升他們的表現。通俗點說,實時輔助系統有點像企業給銷售代表、客服等工作人員配備的一個「外掛」,這個「外掛」可以實時提示工作人員如何更好地解答客戶的疑問,如何更專業地向客戶介紹產品和服務……在實際應用中,循環智能為企業提供對比測試方案以衡量產品價值。他們發現,通過讓員工變得更專業,實時輔助系統往往能夠帶來員工的產能提升和公司的營收再增長。這個千億級別的市場,有望借助「盤古」模型的能力,更快地實現規模化應用。大模型是一種基礎設施類型的存在。在楊植麟看來,「盤古」有望成為一個通用 API,開啟一種新的商業模式。在這種模式中,開發者可以基于通用 API,結合業務場景,靈活高效地定制行業應用,解鎖更多此前想象不到的場景。華為云人工智能首席科學家、IEEE Fellow 田奇也表示:「盤古 NLP 大模型可以實現一個 AI 大模型在眾多場景通用、泛化和規模化復制,減少對數據標注的依賴,讓 AI 開發由作坊式轉變為工業化開發的新模式。」清華大學計算機科學與技術系教授唐杰在前段時間接受機器之心采訪時曾表示,「超大規模預訓練模型的出現,很可能改變信息產業格局。繼基于數據的互聯網時代、基于算力的云計算時代之后,接下來可能將進入基于模型的 AI 時代。」楊植麟也同意這一觀點。在他看來,這個新時代將有兩大特征。一是 AI 生產效率的變革。隨著標注數據需求大幅降低,AI 生產效率將迎來兩到三個數量級的提升,擺脫原來依靠大量樣本的落后生產方式,進入規模化量產時代。二是 AI 場景的指數級增加。技術的突破往往帶來新市場,而目前 AI 商業化的現狀就是需求很多但技術不一定滿足。AI 預訓練技術突破之后,馬上可以解鎖很多新場景,從數字化程度比較高的行業走向傳統行業,從大型企業走向中小企業。楊植麟認為,預訓練的難題有三個層次:(1)如何突破現有范式的瓶頸,拓展智能邊界,實現更強的認知能力;(2)基于現有范式,如何進行技術提升,打通技術和產業的最后一公里;(3)如何找到合適的商用場景,創造預訓練模型的商業價值。如果「基于模型的 AI 時代」真的到來,學界和業界可能將迎來更加清晰的分工:「盤古模型做的是 2 和 3,也是產業界重要的工作。學界應該做的是 1 和 2。學界和業界應該合作,通過學術資源、算力資源、商業資源的交融,把預訓練技術往前推進。」
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。