https://www.toutiao.com/article/7275265907189350953/?log_from=12a8c57818a5c_1694052830713
文/Rob Toews
如果說現代人工智能有一份創始文件或者一篇圣典,那一定就是谷歌2017年發布的研究論文《你需要的只是Attention》(Attention Is All You Need)。
這篇論文介紹了一種被稱為“transformer"的新型深度學習架構,并在過去五年里徹底改變了人工智能領域。
Transformer是當今占主導地位的人工智能架構,它與2016年科幻電影《降臨》(Arrival)中的外星語言有著有趣的相似之處。圖片來源:PARAMOUNT PICTURES
目前席卷全球的人工智能熱潮都可以直接追溯到transformer的發明。今天出現在頭條新聞中的每個主要AI模型和產品——ChatGPT、GPT-4、Midjourney、Stable Diffusion、GitHub Copilot等等——都是使用transformer構建的。
Transformer具有顯著的通用性:雖然它們最初是專為語言翻譯而開發的,但它們現在也在推動計算機視覺、機器人學、計算生物學等領域的技術發展。
簡而言之,transformer代表了當今人工智能技術無可爭議的黃金標準。
但沒有一種技術能永遠占據主導地位。
在transformer的影響力達到頂峰之際,思考接下來會發生什么似乎有些奇怪。但是,在瞬息萬變的人工智能世界里,在未來變得顯而易見之前,設法“洞察先機”并一窺究竟,既令人著迷,又大有裨益。
本著這種精神,讓我們斗膽一問:
什么會取代transformer?
為了探討這個問題,我們必須首先更深入地了解transformer。
現已成為經典的那篇關于transformer論文是由八位研究人員于2017年在谷歌共同完成的:他們是艾丹·戈麥斯(Aidan Gomez)、利昂·瓊斯(Llion Jones)、盧卡斯·凱澤(Lukasz Kaiser)、尼基·帕馬爾(Niki Parmar)、伊利亞·波羅蘇欣(Illia Polosukhin)、諾姆·沙澤爾(Noam Shazeer)、雅各布·烏斯科雷特(Jakob Uszkoreit)和阿希什·瓦斯瓦尼(Ashish Vaswani)。
關于這篇論文,一個經常被忽視的事實是,所有8位作者都被列為共同撰稿人,排名不分先后,也就是說,他們的名字出現在論文上的順序是隨機決定的,沒有任何意義。話雖如此,人們普遍認為烏斯科雷特為transformer這個概念提供了最初的智力引擎,而瓦斯瓦尼和沙澤爾則是自始至終最深入參與這項工作各個方面的兩位作者。
這8位作者都因為他們對這篇論文的參與而成為了人工智能領域的杰出人物。如今,他們都不在谷歌工作了,但他們后來各自或共同創辦了許多當今最重要的人工智能初創公司,包括Cohere、Character.ai、Adept、Inceptive、Essential AI 和 Sakana AI。
Transformer究竟為何能帶來如此巨大的突破?
在《你需要的只是Attention》這篇論文發表之前,語言人工智能領域最先進的技術是一種被稱為遞歸神經網絡(RNN)的深度學習架構。
顧名思義,RNN是按順序處理數據的,即按照單詞出現的順序一次處理一個單詞。
但重要的關系往往存在于單詞之間,即使它們在一個序列中不是緊挨著出現。為了使RNN能夠更好地解釋詞與詞之間的這些遠距離依賴關系,一種被稱為“Attention”的機制變得流行起來。(Attention機制的發明通常被認為歸功于深度學習先驅約書亞·本吉奧(Yoshua Bengio)在2014年發表的一篇論文。)
“Attention”使模型能夠考慮單詞之間的關系,而不管它們相距多遠,并確定段落中哪些單詞和短語最值得"關注"。
在transformer論文發表之前,研究人員只將Attention作為RNN架構的附加組件。谷歌團隊的一大飛躍是完全摒棄了RNN,完全依靠Attention來進行語言建模,這就是那篇文章的標題為什么叫《你需要的只是Attention》。
(關于這篇論文,有一個迷人但鮮為人知的事實:據合著者利昂·瓊斯說,它的標題是對披頭士樂隊的歌曲《你需要的只是愛》(All You Need is Love)的致敬。)
發明transformer的八位科學家。圖片來源:金融時報
Attention機制使transformer的根本創新成為可能,它實現了語言處理的并行化,即同時分析特定文本中的所有單詞,而不是按順序分析。
作為一個有趣的類比,論文合著者之一伊利亞·波洛蘇欣將transformer的結構與2016年科幻電影《降臨》(Arrival)中虛構的外星語言進行了比較。影片中的外星人并沒有像人類那樣,按順序生成一串字符來組成單詞和句子,而是一次生成一個復雜的符號,所有的符號都傳達了一個詳細的含義,人類必須將其作為一個整體來解讀。
Transformer的并行化使它們對所讀和所寫的文本有了更全面、更準確的理解。這也使它們與RNN相比具有更高的計算效率和可擴展性。Transformer可以在更大的數據集上進行訓練,并且可以使用比以前的架構更多的參數來構建,從而使其功能更加強大,更具通用性。事實上,當今基于transformer的領先模型的一大特點就是其規模。
Transformer的并行架構與GPU硬件的興起不謀而合,這是一種互惠互利、相互促進的歷史巧合。GPU是一種計算機芯片,它本身具有大規模并行性,因此非常適合支持基于transformer的計算工作負載。(全球領先的GPU生產商英偉可能是當今人工智能熱潮的最大受益者,由于市場對其芯片的需求驚人,該公司最近的市值超過了1萬億美元。)
剩下的,就像人們常說的那樣,就是歷史了。得益于這些巨大優勢,自發明以來的六年里,transformer席卷了世界,開創了生成式人工智能的時代。
今天流行的所有“聊天機器人”——OpenAI的ChatGPT、谷歌的Bard、微軟的Bing Chat、Anthropic的Claude、Inflection的Pi等等——都是基于transformer。從Midjourney到Stable Diffusion再到Runway的每一個生成圖像或視頻的人工智能工具也是如此。(從文本到圖像和從文本到視頻技的術是由擴散模型驅動的,而擴散模型又使用了transformer。)
Transformer的影響遠不止文字和圖片。當今最先進的機器人研究都依賴于transformer。事實上,谷歌最新的機器人研究成果被命名為RT-2,其中的“T”代表的就是“transformer”。同樣,在自動駕駛汽車領域最有前途的新研究途徑之一是使用視覺transformer。基于transformer的模型開啟了生物學中令人驚嘆的新可能性,包括設計出自然界從未出現過的定制蛋白質和核酸的能力。
Transformer的聯合發明人阿希什·瓦斯瓦尼總結得很好:“transformer是一種快速捕捉任何輸入內如的不同部分之間相互作用的方法。這是一種通用的方法,可以捕捉各個部分之間的相互作用,例如句子中的片段、音樂中的音符,圖像中的像素、蛋白質的部分等等。它可以用于任何任務。”
然而,盡管具有令人難以置信的優勢,transformer也并非沒有缺點。這些缺點為可能出現的新的和改進的體系結構打開了大門。
Transformer的主要缺點是其驚人的計算成本。
任何熟悉人工智能世界的人都知道,當今人工智能模型的一個決定性特征是它們永不滿足的算力需求。今天,訓練一個尖端的大型語言模型需要連續幾個月不停地運行數千個GPU。例如,OpenAI今年早些時候籌集了令人瞠目的100億美元,其原因是為了支付構建先進人工智能模型所需的大量算力資源的費用。另一個例子是,成立僅18個月的初創公司Inflection最近籌集了超過10億美元的風險投資,用于構建一個大型GPU集群來訓練其語言模型。
事實上,基于transformer的模型對算力的需求如此之大,以至于當前的人工智能熱潮引發了全球供應短缺,硬件制造商無法以足夠快的速度生產人工智能芯片,以滿足需求。
為什么transformer對算力的要求如此之高?
一個基本的答案是,transformer的強大之處同時也是它的弱點:因為它們比以前的架構更能有效地擴展,transformer使構建比以前存在的大幾個數量級的模型不僅成為了可能,而且是不可避免。如此龐大的模型相應地需要龐大的計算能力。
但是transformer的算力成本有一個更具體的原因:transformer的架構與序列長度成二次方關系。簡單地說,這意味著當transformer處理的序列長度(例如,段落中的單詞數量或圖像的大小)增加給定數量時,所需的算力就會按該數量的平方增加,從而迅速變得巨大。
這種按照平方放大的縮放是有直觀原因的,也是transformer設計的固有特點。
回想一下,Attention使理解單詞之間的關系成為可能,而不管它們在序列中相距多遠。它是如何做到這一點的呢?通過將序列中的每個單詞與該序列中的每個其他單詞進行比較。這種兩兩比較的結果是,隨著序列長度的增加,所需的計算步驟數量將呈二次方增長,而不是線性增長。舉個具體的例子,將序列長度從32個詞組增加一倍到64個詞組,transformer的計算成本就不僅僅是增加了一倍,而是增加了四倍。
這種二次方縮放導致了一個相關的缺點:transformer很難處理很長的序列。
隨著序列長度的增長,將它們送入transformer最終會變得棘手,因為內存和計算需求會以二次方的速度激增。例如,想一想整本教科書(包含數百萬個詞元)或整個基因組(包含數十億個詞元)的處理。
增加模型一次可以輸入的最大序列長度,即所謂的模型的“上下文窗口”,是當今大型語言模型研究的一個活躍領域。GPT-4模型的上下文窗口的容量是8000個詞元。幾個月前,OpenAI發布了一個增強版的GPT-4,擁有可容納32,000個詞元的上下文窗口。OpenAI的競爭對手Anthropic隨后加大了賭注,最近宣布推出了一個新模型,其上下文窗口可以容納10萬個詞元。
毫無疑問,這場軍備競賽還將繼續下去。然而,如果OpenAI、Anthropic或任何其他公司堅持使用transformer架構,那么它們制作模型上下文窗口的能力都是有限的。
人們已經做出了各種嘗試,來構建transformer的改進版本,它們仍然使用Attention,但能更好地處理長序列。然而,這些被修改過的transformer架構——如Longformer、Reformer、Performer、Linformer和Big bird——通常會犧牲性能,因此未能得到廣泛應用。
王位的挑戰者
這就把我們帶進了可能是當今研究領域最豐富的領域,即努力創造transformer的替代品。這一研究流派的指導原則是用一種亞二次方擴展的新函數來取代Attention。亞二次方縮放將開啟新的AI模型,這些模型(1)計算密集度更低,(2)與transformer相比,能夠更好地處理長序列。當然,挑戰在于,在實現這一目標的同時,還要與transformer的整體性能相匹配。
2021年,斯坦福大學的克里斯·雷(Chris Ré)實驗室的一項名為S4的研究為這一研究途徑奠定了基礎。隨后,基于 S4 的一系列前景看好的亞二次方架構相繼問世。
S4家族中最有趣的新架構之一是Hyena,幾個月前由包括克里斯·雷本人和約書亞·本吉奧在內的強大團隊發布。
為了代替Attention,Hyena使用了另外兩個操作:長卷積和矩陣逐元素乘法。
卷積是機器學習領域最古老的方法之一,最早是由Yann LeCun在20世紀80年代提出的。Hyena在這個古老的架構上的新做法是根據序列長度拉伸和改變卷積過濾器的大小,以提高計算效率。
Hyena的初步結果令人欣喜。對于非Attention語言模型而言,該模型達到了最新的性能水平。在某些情況下,它可以與transformer的性能相媲美,同時大大減少了計算量。重要的是,隨著序列長度的增加,Hyena相對于transformer的效率提高會變得更加顯著,這凸顯了它們在超長輸入中的優勢:在8000個詞元序列長度下,Hyena運算符的速度是Attention的兩倍,而在64000個詞元長度下,Hyena運算符的速度是Attention的100倍。
正如Hyena的作者所說:“打破二次方的障礙是邁向深度學習新可能性的關鍵一步,例如使用整本教科書作為上下文,生成長篇音樂或處理千兆像素級別的圖像。”
至少帶著一絲嘲諷,作者補充道:“我們在亞十億參數尺度上取得的可喜成果表明,Attention 可能不是我們所需要的全部。”
Hyena架構的一個引人注目的早期應用是HyenaDNA,這是斯坦福大學推出的一種新的基因組學基礎模型。利用 Hyena 處理長序列的卓越能力,HyenaDNA 擁有高達 100 萬個詞元的上下文窗口。人類基因組是現存最長(更不用說最重要)的數據集之一:每個人的DNA包含32億個核苷酸。這使得它成為像 Hyena 這樣擅長捕捉長距離依賴關系的模型架構的理想用例。
HyenaDNA的作者為這項技術未來的發展提供了一個誘人的暗示:“想象一下,能夠用整個人類基因組來向ChatGPT提問——問一些關于可能的疾病的問題,預測藥物反應,或者根據你的特定遺傳密碼指導治療方案,這不是很方便嗎?”
這里需要注意的一點是,Hyena最初的工作是在相對較小的規模上開展的。最大的Hyena模型有13億個參數,而GPT-3有1750億個參數,GPT-4(傳聞)有1.8萬億個參數。Hyena架構的一個關鍵考驗是,當它的規模被放大到當今transformer模型的大小時,它是否能繼續展示出強大的性能和效率提升。
該系列中的其他新型深度學習架構包括 Monarch Mixer(也來自斯坦福大學克里斯·雷的實驗室)、BiGS(來自康奈爾大學和DeepMind)和 MEGA(來自 Meta)。
像Hyena一樣,所有這些模型都具有亞二次方縮放特征,這意味著它們比transformer更具計算效率,更適合處理長序列。和Hyena一樣,它們都很有前途,但尚未得到證實:它們中是否有任何一種能夠在當今transformer模型運行的規模下保持強勁的性能,還有待觀察。
退一步說,計算效率和遠程依賴關系并不是新架構旨在改進的transformer的唯二兩個弱點。
Transformer模型的另一個限制是它們不能持續學習。今天的transformer模型有靜態參數。當一個模型被訓練時,它的權重(神經元之間連接的強度)是被設置好的;這些權重不會根據模型在現實世界中部署時遇到的新信息進行更新。
另一個常被提及的限制是transformer缺乏可解釋性。基于transformer的模型都是“黑匣子”:它們的內部運作過于復雜和不透明,以至于人類無法準確理解它們的行為方式。對于安全關鍵型或高度受監管的應用(如醫療保健領域)來說,這可能是一個真正的問題。
液體神經網絡(Liquid neural networks)是另一個試圖挑戰transformer的熱門AI新架構,它聲稱可以解決這兩個缺點。
由拉明·哈桑尼(Ramin Hasani)和丹妮拉·魯斯(Daniela Rus)領導的研究小組在麻省理工學院創建了液體神經網絡,其靈感來自生物學,特別是秀麗隱桿線蟲(Caenorhabditis elegans)的大腦的工作方式。其名稱中的“液體”指的是這樣一個事實,即模型的權重是概率性的,而不是恒定的,因此可以根據模型所接觸的輸入而變化。
液體神經網絡也比現在的transformer模型小得多。在最近的一次概念驗證中,麻省理工學院的團隊建立了一個自動駕駛汽車系統,該系統僅用19個神經元和253個參數就能成功地在公共道路上行駛。
“每個人都在談論擴大他們的網絡,”哈桑尼說。“我們卻希望縮小規模,擁有更少但更豐富的節點。”
除了計算效率之外,這種更小的架構意味著液體神經網絡比transformer更透明,更易于人類閱讀。畢竟,對于人類觀察者來說,解讀一個擁有253個連接的網絡中發生的事情,要比解讀一個擁有 1750 億個連接的網絡中發生的事情更加切實可行。
魯斯是世界領先的機器人專家之一,而液體神經網絡似乎也特別適合機器人應用,包括自動駕駛汽車和無人機。它們只能處理時間序列數據(即具有時間維度的數據),這意味著它們不能應用于圖像或其他靜態數據模式。
值得一提的還有為打造“transformer之后的東西”所做的最后一項努力。《你需要的只是Attention》這篇論文的八位合著者之一的利昂·瓊斯最近離開了谷歌,與前Stability AI)研究主管大衛·哈(David Ha)一起創辦了一家名為Sakana AI的新公司。
Sakana的任務是用一種基于進化原理的自然啟發的智能方法來改進transformer。團隊愿景的關鍵是集體或群體智能的概念,即由許多小模型組成的系統協同行動,而不是一個單一的模型。
“學習永遠是贏家,”瓊斯說。“人工智能的歷史反映了這樣一個現實,即讓一個模型自己學習一些東西總是比人工設計它更好。深度學習革命本身就是一個例子,畢竟我們已經從手工構建特征檢測器進化到讓神經網絡學習自己的特征。這將成為我們Sakana AI的核心理念,我們將從自然中汲取包括進化在內的想法來探索這個領域。”
必須要說,Transformer是一個非常強大的AI架構。
它已經成為現代人工智能的基礎。幾乎所有先進的AI系統都是基于transformer;每個人工智能研究人員都已經習慣于使用transformer。在過去幾年里,成千上萬的研究人員在彼此的工作基礎上對transformer進行了優化。
這為它們提供了強大的在位優勢,使其難以被取代。
然而,在聚光燈和人工智能炒作的回音室之外,開發下一代人工智能架構的工作正在如火如荼地進行,這些架構在不同方面都優于transformer。
雖然這些工作仍處于早期階段,尚未得到證實,這些新架構是否能成功取代transformer也還遠未確定,但如果他們做到了,對人工智能世界的影響將是巨大的。
在transformer時代之前,不同的AI架構在不同的用例中各自占主導地位:遞歸神經網絡用于語言領域,卷積神經網絡用于計算機視覺領域,強化學習用于游戲領域,等等。
近年來,隨著transformer在一個又一個領域證明了自己是最先進的,從語言到視覺到機器人再到生物學,人工智能方法論的逐步統一令人矚目。
然而,這種走向統一的趨勢——“一個人工智能架構來統治所有的人工智能”的趨勢——并不會無限期地持續下去。
可以想象,未來會出現另一種情況:隨著未來幾年人工智能研究前沿的發展,新的架構會被開發出來,并被證明它們更適合特定領域。舉例來說,也許transformer在語言處理領域仍將占據主導地位,但新型架構很快就會取代transformer,成為機器人領域的最先進架構。
又或許,一種新的人工智能方法會被開發出來,它的性能會超越transformer,并迅速取而代之。
只有一件事是肯定的:今天的人工智能領域發展如此之快,如此充滿活力,以至于我們應該預料到變化會來得快到讓人不舒服。我們不應該把任何事情視作理所當然,而應該為未來所帶來的驚喜做好準備。
本文作者是風投機構Radical Ventures的合伙人,也是福布斯撰稿人,文章內容僅代表作者本人觀點。譯自
https://www.forbes.com/sites/robtoews/2023/09/03/transformers-revolutionized-ai-what-will-replace-them/?sh=580627fe9c1f