關于人工智能,有人問過這么一個問題:
現在人工智能已經這么厲害了,人類是不是可以躺平了?
人工智能真正吸引了全世界的目光,是幾年前的那場著名的棋局。下棋一直是人類智慧的精華,而圍棋更是精華里的巔峰,皇冠上的明珠。在我們的印象里,圍棋高手通常都是天賦異稟,智商拔群的人。從當年的棋圣聶衛平,再到現在最有影響力的圍棋天才少年、17歲排名世界第一、從四段直升九段的柯潔,他們都是人們眼中的“最強大腦”。
2017年,谷歌的阿爾法狗和柯潔對局了三盤。結果大家都知道了,3:0,人工智能三,柯潔零。而柯潔淚灑賽場的情景也觸動了很多人。
大家都在問:人工智能,真的已經這么厲害了嗎?
人工智能,到底厲害在哪?
人工智能的厲害之處,就是能把一個具體的事情做到極致,做的又快又好。除了下棋之外,還有人臉識別、車牌號識別、做核酸的時候身份證識別等等。事實上,AI最厲害的地方并不是比人做的更好,而是能大規模復制。比如我們能在每個路口都放好幾個攝像頭,自動監測哪個車違章了、并且立刻識別車牌號。但我們沒辦法在每個路口都放好幾個警察叔叔去做同樣的事情。
但是,這些AI只擅長做一件事情,比如下棋或者識別車牌。如果讓識別車牌的AI去下棋是很難的,但讓柯潔去協管交通卻并不難。這就是專用智能和通用智能的最大區別。
傳統的人工智能都是針對某個應用,用很多數據訓練出一個神經網絡,然后把這個網絡放到實際的應用里去工作。比如打敗柯潔的人工智能AlphaGo,就是通過不斷學習各種棋局、24小時不間斷自己和自己下成千上萬局棋,把自己練成了平平無奇的下棋機器。
但如果讓它處理一個和下棋無關的應用,問題就來了。它從來沒見過這個東西,自然就無從下手看。打個不那么恰當的比喻,人工智能里的神經網絡,其實可以看成AI的腦容量。為了處理各種不同的應用、提高人工智能的通用性,就必須提升腦容量。
這個時候,就出現了「大模型」。
大模型,是AI進化的新階段嗎
顧名思義,大模型最主要的特點就是「大」,它指的是網絡的參數非常多、規模非常大。經典的深度學習模型ResNet大概有2300萬個參數,而大模型的開山之作GPT-3的參數量達到了1750億,比傳統的模型高出了近1000倍。
靠著這么大的規模,大模型的腦容量擴大了,能學習和處理的東西自然就多了。2021年八月,著名AI學者、斯坦福的李飛飛教授和100多位學者聯合發表了一篇研究報告,深度分析了大模型面對的機遇和挑戰。他們把大模型叫做「Foundation Models」,中文直譯過來就是基礎模型,從這個名字也可以看到大模型帶來的基礎性意義。
(報告全文已上傳至知識星球 – 老石談芯進階版,請文末掃碼進入星球查看)
這些學者也認為,大模型會在人工智能領域帶來一波設計范式的轉變,最重要的就是引領專用AI到通用AI的變化。
大模型之所以能做到通用AI,是因為它可以做大規模的訓練,并且把各種領域的知識都學習整合在一起。在應用的時候只需要做一些微調,就可以用在不同的任務里,這個是小模型做不到的。
大模型另外一個好處,就是對輸入數據的要求沒那么高了,它通過小樣本學習方法,可以從沒有標注的數據里學習,并且通過少量有標注的數據不斷進行修正。這相當于我們人類在學習知識的時候,往往會需要組成一個知識體系。這樣在學習新知識的時候,就可以在這個體系里不斷擴展,而不需要從頭再來。
其實從2020年開始,全球各大公司和研究機構就已經開始了大模型的軍備競賽。除了前面說的GPT-3,2021年谷歌發布了萬億級模型Switch Transformer,微軟和英偉達也推出了包含5300億參數的自然語言生成模型。
當然了,在大模型這個領域,中國企業也一直保持著國際的先進水平,比如華為和鵬城實驗室、中科院自動化所、武漢大學等發布了中文語言、多模態、遙感等系列大模型,它們的參數量都達到了千億級別。此外阿里、浪潮也都相繼推出了自己的大模型。
AI大模型,救世主還是烏托邦?
但是,我們在看任何事情的時候都不能只看一面,前面只說了AI大模型的好處,沒說它的問題和不足。其中最大的問題,就是大模型的開發和部署的過程非常難。具體一點說,大模型都是拿錢、人、時間堆出來的。
就拿GPT-3舉例,介紹它的論文長達72頁、作者31人。訓練這個大模型動用了超級計算機,訓練成本超過1200萬美元。這樣的開發難度,的確能大力出奇跡,但也是普通人、甚至是普通公司和高校都做不到的。
(論文全文已上傳至知識星球 – 老石談芯進階版,請文末掃碼進入星球查看)
正是因為訓練的成本非常高,所以一旦出現問題要去修正,就非常難了。
在大模型的部署和應用里,也同樣存在著問題。
前面提到的李飛飛和其他AI學者撰寫的報告里,也提到了大模型的兩個問題,分別是「同質化」和「涌現」的風險。同質化指的是目前的大模型的基礎原理其實都比較類似,一旦基礎模型出現問題,都會被繼承到大模型和下游應用里。涌現指的是某個行為是隱性歸納的,而不是專門訓練出來的。這樣一旦問題出現,我們既不理解它是怎么來的,也不知道它是怎么沒的,總之就是難以預料和掌握。
所以可以看到,從規劃、訓練,到部署一個大模型,仍然需要克服諸多困難。所以這也就成了整個行業當前研究的重點。
這個其實和人工智能剛剛興起的時候很像,當時人們要自己寫深度學習的代碼,一層一層地搭神經網絡,然后再把這些模型部署到GPU或者其他硬件上運行。這個過程也是同樣費時費力的,而且全行業估計也沒幾個人能做。但是后來出現了Tensorflow這樣的深度學習框架,就把這個過程大大簡化了,也大大降低了行業的門檻,讓人工智能迎來了一波大爆發。
這就像廚師做飯不用從種地開始、工人干貨不用從煉鋼開始一樣,各種AI框架、編程模型的產生,極大的減少了重復性的工作,讓大家不用從頭再造輪子了。AI專家只需要專注于調參(誤)算法的創新就可以了。
同樣的,大模型的未來發展也大概率會遵循這樣的規律。這幾年,人工智能已經開始從「大煉模型」到「煉大模型」轉變,但大模型似乎都只有頂級大廠、高校和科研機構才能玩得起,動輒投入幾十上百人、燒個幾百上千萬美元去煉大模型,普通人可玩不起。
成本是一方面,大模型的規劃、開發、部署各個環節,每個都是天坑、都是吞金獸。本來大模型要解決的問題,就是要避免人們從頭踩坑。怎么反過頭來坑挖到自己身上了呢?
所以,為了讓大模型更好的進行規劃、開發和產業化落地,就需要一個新的框架和流程,去幫助大家解決大模型落地遇到的各種問題。
這也正是華為提出的「大模型全流程使能體系」要做的事情。
AI大模型,如何落地?
說白了,華為提出的這個「體系」就是一個大模型的框架,它整個分成了規劃、開發和部署三大塊,每塊的核心思想都很清晰,就是要降低大模型的開發和應用門檻。
比如在規劃階段,這里面的核心是昇騰大模型沙盤。行軍打仗的時候主帥會用沙盤進行推演,自己有哪些部隊,每個部隊的戰力如何、特長如何,在沙盤里都一目了然。在這個大模型沙盤里,把軍隊換成了不同領域的大模型,比如針對自言語言處理的鵬程.盤古、針對計算機視覺的盤古CV、針對多模態的紫東.太初等等。研究者能在沙盤里進行推演,根據自己的應用和已有的大模型開展研究。
在沙盤推演完畢,就進入實戰,也就是關鍵的開發階段。在這個階段,華為提供了大模型開發使能平臺,包含了數據準備、基礎模型開發、行業應用適配、模型推理部署的全流程工具。其中最核心的部分,是開發、微調、部署三個套件。如果要再挑出來一個皇冠上的明珠,那就是昇思MindSpore。它不僅有編程API這樣的傳統功能,還可以自動實現6個維度的并行運算,開發者只需要一行代碼就能實現模型自動切分和自動化運算。
此外,它還能進行多級存儲優化,讓10萬億參數的模型跑在512張板卡上,提升開發效率、降低了成本。當訓練意外中斷的時候,會觸發軟硬件保護,讓整個模型在幾分鐘之內恢復,避免重新來過的風險。
針對大模型的微調,華為也有MindX的大模型微調套件,實現一鍵式微調和小樣本學習的低參數調優。也就是說,可以通過預置的任務模板,根據目標應用自動進行參數調節。
開發完畢,就可以部署了。在這個階段,華為提供了MindStudio部署套件,可以進一步優化模型、根據應用場景進行分布式部署和推理,同時使用量化、剪枝、蒸餾等技術,對模型進行進一步壓縮,可以實現10倍以上的壓縮率,保障部署模型的安全。
其實不管是什么樣的大模型、不管是什么樣的開發框架,最終還是要用起來。大模型的意義,就是從以前的作坊式的AI開發,轉向工廠化的大規模應用。不過為了真正實現規模化產業部署和推廣,還需要產學研的通力合作,并且共同建立起一個發展生態。在這個領域,華為也支持伙伴成立了多個產業聯盟,比如基于紫東.太初大模型的多模態人工智能產業聯盟,以及即將成立的AI生物醫藥產業聯盟等等。
不管是什么行業,單打獨斗的日子早就一去不復返了,開放合作才是未來。
有布局、有實現、有落地,然后搜集反饋,幫助更好的布局和實現,從而形成一個大模型的生態閉環。再加上華為昇騰的AI算力基礎設施、昇思MindSpore開源社區、以及各種創新使能計劃,這些才是華為構建大模型生態的終極布局。
結語
回到一開始的問題,人工智能現在已經這么厲害了,人類是不是可以躺平了?悲觀的人認為,人工智能會取代很多人類的工作,甚至也剝奪了我們下棋、打游戲的快樂和意義,因為就算是天才也贏不了人工智能,哪怕是一局。
但是,「贏」或許只能帶來很少的樂趣,更大的樂趣是創造新的技術、新的工具,并由此給人類帶來更多新的機會。柯潔被AI橫掃后也曾反思,最后也想以他的話結束本文:
「人工智能戰勝人類棋手也是人類科技的進步,人類的新智慧以某種形式戰勝了古老智慧,這其實是人類的又一次自我超越」。
(注:本文不代表老石任職單位的觀點。)