Hello大家好,我叫王自由,是Hugo的朋友,之前在斯坦福念的碩士方向和目前在國內的創業方向都跟人工智能有關。最近以ChatGPT為代表AI大模型在國內引發了大量的討論,相關創投領域也呈現出勃勃生機萬物競發的境界,被英偉達創始人黃仁勛視為又一個“Iphone時刻”,比爾·蓋茨發文表示“就像第一次看到圖形界面操作系統”。但為什么這樣一個跨時代的發明不是來自Google,百度或者Facebook這樣深耕AI多年的巨頭,而是來自OpenAI這個小創業團隊呢?最近做了很多關于ChatGPT的研究,感嘆技術發展之快。因為我在2019年前后接觸過NLP(自然語言處理)的研究,當時身邊的朋友普遍的論調都是“相比CV視覺領域,NLP還需要10年才能應用”,現在看來真是目光短淺了。如今4年過去了,語言模型能處理的問題大大超出了我們的理解,落下4年的功課,最近重新研究,發現所謂的“大力出奇跡”(堆參數量和訓練量)不能完全概括OpenAI這群人在技術路徑選擇的遠見和堅持。如果大家能細品這幾年NLP領域技術發展之路,或許,會更感嘆這群人的努力是多么珍貴。我們把時間拉回到最早的語言模型身上。那時候最有效的模型應該就屬RNN循環神經網絡,我們不去深究其中的細節原理,只從物理直覺角度闡述這一類模型的特點。這一類模型主要是利用了語言中的前后次序關系來預測。“他好像一條狗”,“狗”這個詞的預測依賴于之前的詞,所以在模型的架構上,就是“循環結構”,下一個變量依賴于上一個變量。這一類模型在時序數據上面的表現很不錯,時序數據不僅有語言,還包括了股票等數據集。這非常符合人類的直覺,但是也有不少問題,第一,隨著模型層數的增加,最早的數據會被淹沒,詞與詞之間的關系無法被有效考量,第二,無法并行計算,模型能夠處理的數據量有限,由于模型中的次序關系存在,無法像圖片一樣用GPU并行計算,限制了模型大小,第三,只能用在特定的學習任務上,比如說做翻譯的模型,不能用來做文字生成。一切的開始,Attention和TransformerGPT包括后續很多技術的開始其實都始于Google。2017年,Google的研究員發表了一篇影響非常深遠的文章《Attention is All You Need》,提出了Transformer模型,這也目前大多數語言模型的基石架構。從直覺來理解其實非常簡單。他們認為人類在說話的時候,每一個詞和其他詞有關聯,就像人的注意力一樣。我們看下面這張圖更好理解,下圖中輸出的'it'和左側的關系強弱可以通過顏色深淺看出來,那么這種機制可以被賦予權重從而應用在神經網絡之中。通過這樣的注意力機制,語言模型就可以脫離開RNN結構,粗暴地甩開了之前大家常用的模型網絡。算法的效果很不錯,而且設計上非常精巧。這里我想提一個很有趣的現象,筆者親歷,當時很多的科研人員嘗試研究路徑是將Transformer和RNN結合,效果確實也會變得更好,但是現在來看,這一個方向就是死胡同,所以回過頭來看這段時間,會有不一樣的體悟。2018年前后,OpenAI開始發力了,他們發表了第一個GPT模型。同時代,Google也發表了BERT模型。下面是當時最火的三個模型。可惜的是,BERT在很多問題上的表現優于GPT-1。這也是為什么Google沒有發明ChatGPT,資本市場如此失望的原因。我們先說說BERT和GPT-1這兩個模型到底比之前的好在哪兒,我覺得這也是OpenAI一群人搞明白技術路線的一年。首先我們要知道傳統的機器學習,你需要標注好的數據,比如說,我想要訓練一個判斷人類情緒的算法,我需要給機器數據,“input:我不開心,output:負面情緒”,這樣的模型就有個巨大的問題,就是標準好的數據非常少,也很依賴人工,但是語言模型里面大多數數據都是沒有被標注的,比如知乎上大部分的語料,都是沒有output的,只有輸入。如果純依賴人工,大數據量是不能完成的。這時候,BERT和GPT-1提出一種思路,就是通過這些文字本身進行學習,不用額外再進行標注。BERT是抓取一段話“他好像狗”,隨機把其中的詞遮擋住,“他[mask]像狗”,讓模型去預測遮擋住的詞是什么;而GPT-1則是把下一個詞遮擋住,只給出上文讓機器去預測,總而言之,這樣就可以利用起網絡上絕大多數的數據去訓練模型。這一步就是他們的預訓練過程。在預訓練結束之后,BERT和GPT-1會在特定的任務下面進行進一步的訓練達到更好的效果,比如會再用翻譯的數據去訓練一遍模型。有點像人先學拼音,而后再去寫作文一樣。當然,BERT和GPT-1還有模型結構的差異這里暫時不提。這時候GPT-1的風頭絕對不如BERT,我記得我們當時學NLP的課程,老師特意讓我們一起去讀了BERT,而GPT-1我當時都沒怎么好好研究過。再加上BERT主要用于自然語言理解任務,如問題回答、文本分類、句子關系分析等,它可以理解文本中的語義和關系,并能夠找出語句之間的聯系,這些應用場景本身也非常明確,可以為公司帶來價值。而GPT擅長的文本生成的場景,大廠們都非常質疑,因為AI生成文本總是會胡言亂語,如果大廠推出胡言亂語的AI產品,顯然對口碑是非常不好的。總結一下,目前的GPT-1,只能用在特定場景,但是模型的框架、設計的思路,已經是一流的了。這時候OpenAI的團隊提出一個非常有遠見的科研直覺,他們認為語言模型應該處理多任務而不是單一任務。舉個例子,如果機器閱讀過“2017年Google發表了Attention機制相關的論文”,那么對于“Attention機制是由Google在哪一年發表的”就應該能夠回答,不需要再額外去做訓練了,而GPT-1在預訓練結束之后,還要Q&A的專項培訓。他們認為機器應該理解人類語言。這就是科研人員的直覺和堅持了。我想這里面不僅僅是模型變得更深參數變得更多了,更多的是他們對于語言模型本質的思考,很多時候單純的說別人”大力出奇跡“可能是心理安慰,忽略了他們在底層的思考。回到我們的主題,GPT-2的最大貢獻是驗證了通過海量數據和大量參數訓練出來的模型,可以適用于多個不同的任務而不需要額外的訓練。盡管對于某些問題,當時GPT-2的表現的甚至還不如隨機回答,但是它在7個數據集中的表現,超過了當時最好的模型。值得一提的是,GPT-2的模型結構本質上和GPT-1差別不是很大。隨后的事情大家就知道了,有了這樣的底層認知和經驗,GPT-3發表時,GPT-3就是目前最強大的語言模型。除了幾個常見的NLP任務,GPT-3還在很多非常困難的任務上也有驚艷的表現,例如撰寫人類難以判別的文章,甚至編寫SQL查詢語句代碼等。而這些強大能力的實現則依賴于GPT-3瘋狂的1750 億的參數量, 45TB的訓練數據以及高達1200 萬美元的訓練費用。這里面不僅僅是所謂的“大力出奇跡”,這群科研工作者對于語言模型的本質思考可一點兒不少。不然,誰敢花這么多錢去訓練呢。GPT-3的模型參數、訓練數據和工作量都是驚人的,論文署名多達31個作者,所有實驗做下來花費的時間和財力肯定是非常巨大的,即便是當時模型似乎還有bug和信息泄露的風險,OpenAI也沒有重新訓練。提個小八卦,大家去翻一下GPT-4的報告(他們把論文取名為:GPT-4 Technical Report)。99頁的論文啊,硬是一點技術細節都不講,全是在秀肌肉。大家再看看這個參與人員名單,這才是人才和科技霸權最直觀的體現。我們當時那群研究過NLP的朋友們,還在這個領域搞研究的就剩一個人,這也是人才稀缺最直觀的體現。歸根結底,很多時候風口不是追出來的,是人創造出來的,是真的喜歡、真的相信才會堅持。要是有人5年前跟我說,我要訓練一個超大型的模型,然后可以處理所有的語言問題,從翻譯到生成作文,我一定會覺得這個人腦子有問題,但是細細深究了OpenAI研究之路,我們會覺得一切也不是那么不可理解。旁人難以理解的堅守背后,一定是非常人所及的認知高度。所以說,技術發展或者說人類創新發展,它的功利心是很小的,那些很功利的下場,都不是很好,比如歷史進程中的電子管小型化、GPU的發展。找到內心所愛,持之以恒、不求回報、自由馳騁。
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。