1 大型語言模型成新寵
由于ChatGPT爆火的緣故,大型語言模型(LLM,Large Language Model)集萬千寵愛于一身。但它們是什么呢?
簡單地說,LLMs是一種計算機系統,被設計用來學習文本語料庫的統計屬性,以生成模仿原始文本的風格和內容的新文本。換句話說,LLMs能夠生成現實而較為準確的新文本,看起來像是由一個真實的人寫的。
LLMs的核心基于一種強大的機器學習技術,即深度學習。深度學習是人工智能的一個子集,能夠自動學習數據中的復雜模式。深度學習算法的靈感來自于大腦從經驗中學習的能力,它們通常使用神經網絡來實現——計算系統的結構與大腦非常相似。事實上,如果不使用先進的水印策略,就不可能準確區分由人類頭腦所寫的文本和由高度可并行的人工神經網絡所產生的文本,后者的神經連接數要少得多。
傳統機器學習算法和深度學習算法之間的一個關鍵區別是,深度學習算法可以擴展到更大的數據集,它們可以從非結構化或未標記的數據中學習。這使得它們非常適合于自然語言處理(NLP, natural language processing)等任務,這也是LLMs的用途。它現在被認為是人工智能的前沿,因其有可能執行需要創造力、推理和理解自然語言的任務。
LLM于2017年在谷歌大腦(Google Brain)開始使用,研究人員推出了transformer(轉換器)架構,它是自然語言處理中使用的一個基于深度學習模型的神經網絡,訓練可以實現并行化,這為訓練真正的大模型首次提供了機會。
此后,大型語言和文本-圖像模型在領先的技術公司中激增,包括谷歌(BERT、GLaM、LaMDA、Chinchilla、PaLM)、Facebook(OPT-175B、Galactica、BlenderBot、LLaMA)、英偉達和微軟(Megatron-Turing),當然還有OpenAI,微軟是主要的投資者(GPT-3/4用于文本,DALL-E2用于圖像,Whisper用于語音)。在線社區,如Midjourney,以及HuggingFace等開源供應商,也創造了生成模型。
▲ 圖源Pexels
新的玩家還在不斷進場。2023年3月,彭博社推出BloombergGPT,系根據專有來源的金融數據訓練的LLM,“在金融任務上比現有的模型有明顯的優勢,而不影響一般LLM的基準性能”。彭博社計劃將其整合到通過終端軟件提供的功能中。4月,資助開發“穩定擴散”(Stable Diffusion)等開源生成式人工智能模型的Stability AI宣布推出其StableLM語言模型套件。在為多個領域(包括圖像、音頻、視頻、3D和生物學)開發模型之后,這是該開發商首次跳入目前由技術大腕主導的語言模型游戲。
同在4月,亞馬遜在AWS中推出Bedrock服務,在一個平臺上提供多種生成式人工智能模型。例如,Stability AI的Stable Diffusion圖像生成器,可以將文本變成圖像;AI21實驗室的Jurassic-2模型是一個多語言LLM,可以生成德語、西班牙語、法語、葡萄牙語、荷蘭語和意大利語文本。Anthropic的Claude是一個ChatGPT的對手,可以自動化工作流程,回答問題,并與用戶進行交流。與微軟和Alphabet相比,亞馬遜可能看起來姍姍來遲,但它的打法相當精明。通過Bedrock,亞馬遜不只是提供對上述第三方平臺的訪問,也提供對其專有的大型語言模型Titan的訪問,這可能使亞馬遜變成那些希望使用LLMs并根據其需求構建應用程序的企業的首選平臺。
時至今日,除了蘋果之外,美國每家主要科技公司都宣布了自己的LLM。中國的科技公司當然亦不甘落后:2023年3月,百度推出文心一言并在官宣后為新浪財經、澎湃新聞、愛奇藝、美的集團、東風日產等一系列企業提供接入服務;2022年,阿里達摩院發布通義大模型,并在2023年4月正式推出通義千問;再加上2022年騰訊對外披露的混元大模型和2021年華為發布的盤古大模型等等,不一而足,人稱“萬模大戰”。
LLMs對大型科技公司很重要,因為它們可以實現新的產品和服務,從而吸引更多的用戶,產生更多的收入,并創造更多的價值。例如,LLMs可用于改進搜索引擎、社交網絡、云計算、數字助理、電子商務、游戲、教育、醫療保健等。此外,科技公司可以用LLMs來改進企業的現有產品線,生成式模型的重要價值之一是它們與生產力應用程序的整合。例如,微軟在企業Office套件市場中有明顯的優勢,正在將生成式模型整合到Word、Outlook和Teams等應用程序中。中國科技巨頭阿里巴巴在生成式人工智能方面的最新努力,在某種程度上讓人聯想到微軟,即通過讓人們用自然語言來描述他們想要建立的東西,令使用各種應用程序變得更容易。阿里巴巴宣布,通義千問將被整合到公司的各項業務中,以改善用戶體驗,客戶和開發人員可以通過利用該模型創建定制的人工智能功能。
▲ 圖源Pixabay
2 人工智能為什么非得是大模型?
就這樣,大型通用人工智能模型被業界宣傳為“基礎性的”,是該領域科學進步的主要轉折點。這類敘述分散了“規模病癥”的注意力,這些病癥每天都變得更加根深蒂固:大規模的人工智能模型主要由大科技公司控制,因為它們需要巨大的計算和數據資源,并且還引發了圍繞歧視、隱私和安全漏洞以及負面環境影響等多方面的擔憂。
例如,GPT-3最初是在45TB的數據上訓練的,并采用了1750億個參數來進行預測;GPT-3的一次訓練就花費了1200萬美元。另據報道,ChatGPT每天給OpenAI帶來70萬美元的成本。大多數公司沒有數據中心能力或云計算預算來從頭開始訓練這類模型,包括許多現成的、預訓練的人工智能模型,作為云人工智能服務的一部分提供,而此市場本已集中在大科技公司手中,如AWS(亞馬遜)、GCP(谷歌云平臺)和Azure(微軟)。這些云供應商每年總共花費超過1000億美元的資本支出,確保擁有最全面、最可靠和最具成本競爭力的平臺。特別是在生成式人工智能方面,它們也受益于供應限制,因為它們可以優先獲得稀缺的硬件(如Nvidia A100和H100 GPU)。
大科技公司可能會保持先發優勢,因為它們有時間和市場經驗來磨練基礎語言模型,并發展寶貴的內部專業知識。因此,較小的企業或初創公司可能難以成功進入這一領域,從而使得LLM的巨大處理能力集中在少數幾家大科技公司手中。
2021年,埃米莉·本德(Emily M. Bender)博士、蒂姆尼特·蓋布魯(Timnit Gebru)博士、安吉麗娜·麥克米蘭-梅杰(Angelina McMillan-Major)和瑪格麗特·米切爾(Margaret Mitchell)博士在一篇題為《論隨機鸚鵡的危險》的論文中對LLM的潛在成本和危害提出警告,這篇論文導致谷歌將蓋布魯和米切爾從人工智能倫理團隊的共同領導位置上趕走。
該論文在確定困擾LLM的規模病癥方面有先見之明。當公眾討論被圍繞著ChatGPT和其他LLMs的令人窒息的炒作所吞噬,這項研究提出了清醒的警告:我們需要討論社會是否應該建立這類技術,而不是如何建立,更不是不加批判地將其作為進步的同義詞而加以全盤接受。本德等人問道:“越來越大的語言模型是不可避免的還是必須的?這一研究方向有什么成本,我們在追求它之前應該考慮什么?”
擇其要者,大型語言模型可見的成本就有:
● 環境和財務成本。
LLMs的訓練需要大量的能源,并產生大量的二氧化碳排放。環境問題與種族問題的交匯,意味著被邊緣化的人和來自多數世界/全球南方的人更有可能體驗到能源消耗和二氧化碳排放增加所帶來的傷害,盡管他們也是最不可能體驗到這種模型的好處的一群。此外,進入和訓練這些模型的成本很高,這意味著只有一小部分全球精英能夠發展并受益于LLMs。所以,環境和財務成本應該成為自然語言處理研究中的首要考慮因素。
● 不負責任的訓練數據。
使用大量未經整理的訓練數據集有可能創造出鞏固主導性、霸權性觀點的語言模型。這些訓練數據集的龐大規模并不能保證多樣性,因為它們往往是從網站上刮來的,而這些網站由于互聯網接入不足、代表性不足、過濾或騷擾等問題而排除了邊緣化人群的聲音。這些數據集有“價值鎖定”的風險,或將有害的偏見編碼到難以徹底審計的語言模型中。
如果模型是在過濾有限的大量互聯網數據上訓練出來的,它們就會吸收事實和錯誤信息,有偏見的內容和公平的內容,有害的材料和無害的材料。如果沒有辦法在回答提示之前評估這些標準,LLMs就有可能陷入復制、放大和傳播有問題的內容和錯誤信息的危險。
● 隨機鸚鵡的誕生。
本德等人進一步警告說,對語言模型的追求可能是一個誤導性的研究方向。她們觀察到,語言模型就好比“隨機鸚鵡”(stochastic parrot),“根據關于如何組合的概率信息,胡亂地將它在龐大的訓練數據中觀察到的語言形式序列[縫合]在一起,但沒有任何對意義的參考”。
▲ 圖源Pexels
最終,我們需要問自己,為什么要把人工智能的未來全部押注在大型語言模型一條路上?紐約大學教授兼Meta首席AI科學家楊樂昆(Yann LeCun)就認為LLM是“一個下坡路”,遠離了通往更強大的AI的道路。“大型語言模型能有多聰明,能有多準確,都是有限度的,因為它們沒有現實世界的經驗,而這確實是語言的基本現實。”他指出,人類所學的大部分內容都與語言無關。“我們學習如何投擲籃球,讓它穿過籃圈”,深度學習的另一位先驅者杰弗里·辛頓(Geoffrey Hinton)說。“我們根本不使用語言來學習。我們從試驗和錯誤中學習。”
就算語言是發展人工智能的重要途徑,事情也很明顯:無論 LLMs及其訓練數據集變得多么龐大,它們也永遠無法像我們一樣學習和理解我們的語言。吊詭的是,語言模型的限制導致了一種研究趨勢,即專注于研究這類模型的知識和行為。換言之,人類正在學習 LLMs 的語言,并尋找更好地與它們溝通的方法。
這是因為,語言模型是神經網絡,根據從網絡收集的數據進行訓練。經過訓練后,模型可以接收提示并預測其后的單詞。神經網絡越大,模型的學習能力就越強。數據集越大,模型接觸不同單詞序列的機會就越大,生成文本時就越準確。
可問題是,人類語言不僅僅是文本。事實上,語言是一種將信息從一個大腦傳輸到另一個大腦的壓縮方式。我們的談話經常忽略共享知識,例如視覺和聽覺信息、世界的物理體驗、過去的談話、我們對人和物體行為的理解、社會結構和規范等等。
正如楊樂昆和紐約大學計算機科學系博士后雅各布·布朗寧(Jacob Browning) 在最近的一篇文章中所寫到的,“僅靠語言訓練的系統永遠不會接近人類智力,即使從現在開始訓練直到宇宙熱寂”。但兩位科學家也指出,如果我們停留在表面上,語言模型“無疑會接近[人類智能]。而且,在許多情況下,表面就足夠了”。
▲ 圖源Pexels
3 大型語言模型的三大發展方向
像LLMs這樣的大規模人工智能模型,在過去一段時間里中受到了最多的炒作,也帶來了最大的恐懼。圍繞這些系統的興奮和焦慮都有助于強化如下概念,即這些模型是“基礎性的”,盡管它們無法對人類提示作出有意義的回應的例子數不勝數。值得注意的是,這些模型之所以作為“基礎性”的技術而引入,意在將它們等同于無可置疑的科學進步,成為“通用人工智能”(這是另一個模糊的術語,讓人聯想起科幻小說中關于取代或超越人類智能的概念)道路上的踏腳石,從而使其廣泛采用成為必然。
在最近的一次采訪中,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)說:“我認為我們正處于時代的盡頭,那里將會是這些巨大的模型,我們將以其他方式讓它們變得更好。”這些“其他方式”是什么?一個可能的途徑是在更多的高質量數據上對模型進行微調,創造更好的訓練技術。人工管策的數據集可能是非常有價值的,但創建成本高,速度慢。
正因如此,我來斗膽預測一下大型語言模型的三大發展方向:
第一,我們需要致力于教會語言模型表達不確定性。
在大多數情況下,人類知道他們知識的局限性(即使他們不直接承認)。他們可以表達不確定和懷疑,并讓他們的對話者知道他們對自己所傳授的知識有多自信。另一方面,語言模型總是對任何提示都給出現成的答案,即使它們的輸出是毫無意義的。神經網絡通常提供某個預測正確概率的數值。然而就語言模型而言,這些概率分數并不代表模型對提示響應的可靠性的信心。
OpenAI和牛津大學的研究人員最近發表的一篇論文表明,可以通過教LLMs“用語言表達它們的不確定性”來彌補這一缺點。可以對 LLMs進行微調,以使用自然語言表達認知上的不確定性,研究者將其描述為“語言化概率”(verbalized probability),即用語言表達出來的概率。這是一個重要的發展方向,尤其是在用戶希望將語言模型的輸出轉化為某個動作的應用程序中。研究人員建議,表達不確定性可以令語言模型誠實。“如果一個誠實的模型出現一個誤導或惡意的內部狀態,那么它可以將這種狀態傳達給可以采取相應行動的人類。”
第二,與其致力于模型之大,不如專攻特定模型。
鑒于LLMs不理解它們所處理的語言,也不理解所收到的提示和自己的回應,所以補救辦法一是靠規模的力量,即訓練數據和模型參數的巨大規模,二是靠專業的力量,即在為特定行業或領域(如醫療保健和醫學)定制開發更專門的模型的情況下,有針對性地管策訓練數據,這將有助于解決LLMs在涉及特定問題時的某些局限性。
想象一下,像ChatGPT這樣的LLM已經在最好的醫學文獻上接受了訓練,但訓練數據當中也有討論健康問題的Reddit線程。人工智能有時可以通過檢索和參考高質量的信息來回應,但其他時候它通過使用完全不可靠的Reddit信息來回應。事實上,假如醫學文獻中沒有這些信息(例如一種非常罕見的疾病),它更有可能編造這些信息(此即人工智能行業常說的幻覺)。
所以我們需要通過使用較小和較高質量的數據集為特定的知識領域進行訓練。例如,擁有數十億參數的大型臨床語言模型可以利用電子健康記錄中的非結構化文本幫助提取醫學概念和回答醫學問題,預測疾病或再入院風險,并總結臨床文本。而一個專門為法律行業設計的模型可以接受法律術語和行話的訓練,使其更好地處理法律文件。
▲ 圖源Pexels
第三,高質量的數據將成為LLM稱霸的新戰場。
限制LLM持續改進的最重要限制是可用的訓練數據量。《經濟學人》報道說,2022 年 10 月發表的一篇論文得出的結論是,“高質量語言數據的存量將很快耗盡,可能在 2026 年之前”。肯定有更多可用的文本,但它們被一小塊一小塊地鎖定在公司數據庫或個人設備上,無法以Common Crawl允許的規模和低成本加以訪問。這種數據稀缺對LLM的進一步發展提出了挑戰。
2023年4月18日,Reddit宣布,它將開始對其API的訪問收費。這一決定是在Twitter對其API實施類似限制之后作出的。近年來,Reddit的系列聊天成為谷歌、OpenAI 和微軟等公司的免費教具。這些公司使用 Reddit 的對話來幫助開發巨型人工智能系統。然而現在Reddit聯合創始人兼首席執行官史蒂夫·赫夫曼(Steve Huffman)稱:“我們不需要把所有這些價值免費提供給世界上最大的一些公司。”
隨即,Stack Overflow 也宣布將開始對其 API收費。首席執行官普拉桑斯·錢德拉塞卡爾(Prashanth Chandrasekar)表示:“我們非常支持 Reddit 的做法。”“為 LLM 提供動力的社區平臺絕對應該因其貢獻而得到補償,這樣像我們這樣的公司就可以重新注資到社區,讓其繼續蓬勃發展。”
Reddit和Stack Overflow等平臺為微調LLM提供了快速訪問具體主題和問題的寶貴數據。而這些平臺的所有者正意識到它們所掌握的數據的價值。數據市場日益激烈的競爭可能推動行業走向更少的共享和更多的貨幣化。
不幸的是,激進的貨幣化將進一步增強能夠負擔 API 成本的大型科技公司的能力。 另一方面,小型實驗室和資金緊張的初創公司將不得不處理手頭可用的低質量數據。