張奇,現任復旦大學計算機科學技術學院教授、博士生導師。作為項目負責人承擔了國家自然科學基金面上項目、國家自然科學基金重點項目子課題、863高技術發展計劃子任務、 國家重點基礎研究發展計劃(973計劃)、上海市教委、上海市科委、校企合作等30余項科研課題。發表論文共70余篇。中國中文信息學會錢偉長中文信息處理科學技術獎--漢王青年創新一等獎等獎項。
“多模態大模型無所不能,使得人類深受震撼,這種模態融合文本、圖像、視頻或音頻等作為輸入或輸出,滿足了人們的多元化需求,不過很多使用者不知曉大模型的幾個誤區,模型所能到達的水平,以及小模型和大模型在工作流程和任務范式上的區別,有必要做一個簡單清晰的梳理,來優化大模型應用效率。”以上分享來自于復旦大學計算機學院教授張奇以《大模型時代的危與機》為主題的演講。
在本次直播分享中,張奇教授以GPT核心技術、自然語言處理、算力上的不同,剖析了大模型的幾個誤區,模型的能力,小模型和大模型各自不同的任務范式和優勢,并強調了能廣泛使用的大模型可以應用的場景,以及如何操作處理的流程,以銀行單位為案例,說明大模型還是在經濟學和統計學的范疇,為從業者提供新的研究思路以供借鑒。
以下是演講摘要:
01
大模型的誤區與能力
計算機領域相關從業者在面對一些問題時,樣本數據集較為龐大,語言模型訓練完成后,數據量只會有增無減。
張奇教授表示,“訓練大模型是類似于火箭發射的大規模系統工程,像機器互聯、模型參數存儲等都有許多困難。團隊認識的誤區會導致大模型能力不足,成本也會有波動。因此,充分認識大模型建模過程中的幾個誤區十分有必要。”
1. 大模型的幾個誤區
大模型的任務能力通常需要較高的成本,并不主要依賴涌現,不同任務也會有知識和語言的區別。而且大模型的量級不一定必須滿足千億,人們可以做選擇,有些模型任務范圍是記錄對世界知識的要求,具體量級需要依據情況而定。
張奇認為,在大模型的訓練成本方面,通常訓練LLM,一個直觀的計算尺度是以達到模型預期效果所需消耗的訓練token數量為計算總任務需求,結合GPU上訓練過程中的token吞吐能力,計算滿足要求訓練過程中需要多少塊GPU,進而推算成本。目前任務實現的前提之一是需要高成本,以提升模型訓練效率,所以任務能力也不主要依賴涌現。
同時,也不一定必須使用千億大模型。人們可以根據任務要求做出選擇,比如有些任務集是需要對世界知識有要求。
2、大模型的能力
大模型發展已經很長一段時間,從Facebook發布的百種語言互譯的多語言預訓練模型M2M-100開始,機器翻譯領域實現新突破,Open AI的多模態模型,參數甚至達120億,圖像生成表現優秀,大模型的文本建模能力和任務泛化能力與日俱增。
大模型真正做的事情本質其實就是“文字接龍”,大模型采用了深度學習和自然語言處理技術,并且使用了大量的語料庫進行訓練 。
同時,現在的一些出色的大模型極大地改變了自然語言處理(NLP)領域,在模型訓練中,數據包含互聯網的海量無監督數據,用戶反饋的信息,也有人們對大量未標記語料庫進行的通用預訓練,對少量的任務進行特定的微調,這樣模型就可以預測人類問題的答案。
02
小模型的工作流程和任務范式
小模型時代的工作流程是甲方提出需求給乙方,產品經理根據需求轉換為機器學習問題,研發部門的人進行標注數據,然后建立訓練模型,通過模型評測,確定最優化的模型進行部署。由于數據的不同,會產生N個小模型,模型較多。
“如果研發人員一直使用小模型,就面臨著一些難點。比如任務開發成本高、時間周期長;相同任務的微小需求變化,需要以30%-70%的重新開發成本,導致無法產品化。并且模型開發和維護的成本較高,而人們還需正視高水平算法研究員稀缺的困境。”張奇說道。
小模型未來可能會由大規模語言模型構建,并且通用能力有所增強,比如閱讀理解、情感分析、信息抽取、分類能力等,以滿足特定任務需要,達成一個相對最優的結果。
張奇強調,在未來,小模型的任務范式會發生巨大變化。使用自然語言對模型進行訓練和使用將較為常見。
03
大模型的優勢更勝一籌
小模型在大模型面前可謂是小巫見大巫了,大模型優勢明顯。大模型有非常少量的算法研究員,新任務可以快速訓練,并且不需要模型重新部署,低成本產品化將成為一種趨勢。
并且在金融方面,大模型的價值可以被進一步挖掘。大模型可以應用于銀行,比如信貸輔助決策部門、公司債業務審核業務部門、智能客服業務部門、企業知識庫建設業務部門和科技部門。在自然語音處理方面,相關專業人員可以抽取信息,貼標簽,文本解析和做出情感分析,提高工作審核及決策效率。
1、大模型時代 挑戰與機遇并存
大模型時代是從單個小任務的研究,轉向一類問題統一框架研究,人們面臨一些關于“贏者通吃”理念的挑戰,不緊跟步伐就會造成代差,并且不容易彌補。
對話交互方式已蔚然成風,先發優勢較為明顯,用戶數據無法獲取的情況下,追趕代價更大。不過NLP步入了發展的春天,從手工作坊轉向蒸汽機時代,人工智能的Iphone時代就在眼前,大模型發展越來越側重于精細化發展,比如面向B端私有化部署的“小模型”。
2、NLP研究重點出現遷移
大模型時代的NLP研究重點也有所遷移。比如領域大模型,大模型可控文本生成,大模型隱私,大模型魯棒性評測與提升,超小規模任務模型構建,大模型推理能力構建等等。
不同的業務類型差別很大,例如大模型的長距離建模能力可以解決歧義問題,大模型的統一任務建模能力可以解決模型數量多,管理難的問題,而大模型的領域和任務泛化能力,可以解決領域遷移的問題。重點是小模型不能解決的問題,大模型可以實現,AIGC即為更加智能化的存在。
3、更優化的大模型處理流程
最后,張奇還提到了,如何進一步實現大模型的自然語言處理問題?這個看似復雜難懂的問題。為更貼合于研發人員的實踐需求,張奇教授提出一點意見。從基礎語言模型選擇方面的要點到任務數據構造,再到類人類回答的函數的選擇和訓練,幫助研發者理清了發展思路。
本篇文章由對張奇教授在4月9日“未來科技的實現:AIGC、元宇宙和生物技術”主題直播中的演講整理而生成。該系列主題活動的主辦方為清博智能科技公司。
關注清元宇宙公眾號,持續獲取后續主題演講內容~
排版:駱偉玲
圖片源于Q仔互聯網沖浪所得,若有侵權,后臺聯系,Q仔滑跪刪除~