2023
文 / 焦李成
本報告內容分三個方面,一是AI為什么會成為大家關注的焦點;二是它到底帶來的機遇和挑戰是什么;三是我們應該怎樣面對它。
1 AI新焦點
2022年11月OpenAI公司開發的智能聊天機器人ChatGPT成為全球熱議話題,讓大眾見識到了人工智能的力量。那么,它到底給大眾帶來了什么?人工智能影響了人類生活的哪些方面?這個熱潮不僅是簡單聊天機器人帶給我們生活的改變,更重要的是新一輪技術革新和產業革命是否在新浪潮到來的前夜,這是值得我們思考的問題。
ChatGPT引發了產業界“大咖”的熱議和關注(見圖 1),它不僅是一場技術的創新與應用,為人工智能注入了新的活力,更重要的是它為人工智能的發展帶來的機遇和挑戰,這是我們需要關注的。ChatGPT在帶來了人工智能商業化契機的同時,也將刺激更多的技術創新。ChatGPT為人機交互注入了新的活力,但要做出真正的“類人”的人工智能應用,其技術還有待提升。因此,ChatGPT一定會帶來更深、更多、更寬廣的技術創新浪潮,這才是推動社會向前發展的動力,所以各領域的科學家都很重視它。
圖1 產業界“大咖”的熱議
從ChatGPT到GPT-4經過了一段很長的歷史,它是科學研究和技術積累的結果,從這個意義上來講,2018年GPT到2023年的GPT-4每一步都有技術的革新和技術的長進(見圖2),但ChatGPT還處于初級階段,目前只能作為工具輔助人類工作不能代替人類,所以從現在開始還會有技術的革新,我們更需要去面對。對學術界來說,更多的是要重新再認識,要更多地思考下一步大模型技術創新的突破點在哪里。
圖2 GPT到GPT-4的發展歷程
人工智能技術下一次突破點在哪里,深度學習的理論和技術會怎么影響這個進程。
吳飛教授指出,ChatGPT是一個現象級創新產品,它的本質仍是以深度學習為代表的人工智能技術長期發展、積累的結果,距真正模擬人類的思維還非常遙遠。所以,GPT-4不完整、不完善是必然的,大家感興趣是客觀的,說明我們任重道遠,尤其是學術界要有清醒的頭腦,記住這個技術還需要我們不斷的努力去完善。
ChatGPT是一場“虛火”,還是顛覆性技術革命?2023年的“兩會”上科技部王志剛部長說到,ChatGPT 從源頭來看是自然語言理解、自然語言處理兩個技術,引發大家關注,在于它是一個大模型,對應大數據、強計算、好算法。因此,雖然 ChatGPT帶來的變革如此迅猛,但它僅是大模型技術,而推動技術產業的更新不僅只有大模型的技術,所以它并不代表人工智能的全部,也不代表人工智能的將來。
沒有理論的突破就不會有今天的技術,ChatGPT的成功源于自然語言處理領域70 年發展的長期積累。Foundation models,我更認為它是一個基礎模型。人工智能技術基礎理論發展的重要突破,最先是在自然語言處理領域,它能夠讓機器像人一樣非常自然地和人類進行對話,但對聲音、語言、文字、圖像這些人類交流最自然的信息處理起來相當困難,從而促使了人工智能第三次浪潮的興起。
大模型具有大量的參數和復雜的結構,通常在強大的算力支撐下利用海量數據集下進行訓練,表現出強大的通用性,在各個領域展現出了強大的生命力。當然我們要清醒的認識到,人有智能、聰明,也絕對不靠大數據、大訓練、大模型解決問題。
在人的知識處理中,有一部分是計算,但更多的是知識啟發的推理,包括決策、邏輯的處理等功能在大模型中還遠遠不夠,更多要體現為Foundation models。擁有兩個特性:一個是它的涌現,一個是它的同質。深度大模型的涌現能力強,能夠實現從量變到質變。因為涌現是非線性深度網絡,深度網絡是由許多神經元相互連接組成的一個大系統,涌現是它的基本特征,是大模型的固有特征;同時也是群體智能行為和復雜思維的基本機理和表征,也是人腦感知和認知,或者類腦感知和認知的基本特征。所有這些才構成了感知和認知。因此它是本質性的,對于大模型來說更是如此,因為它是高度復雜的非線性網絡。而我們多數人關注的是它的訓練,很少人關注它的動力學過程。所以,從因果到涌現再到下一代人工智能,需要我們去思考這些本質性的東西。既然是一個Fundamental,這時你就會思考本質性的非線性現象和動力學帶來的問題。
ChatGPT成功從技術上來講,既然是大模型技術就離不開兩個核心方面,第一個是Transformer模型。Transformer最早來源于電力系統中的變壓器,今天的 Transformer已沒有變壓器的含義,“大變活人”或者叫做“變形金剛”也不足以形容其本身具有的能力,是ChatGPT突破的關鍵技術之一。另外一個是基于類人反饋的強化學習(RLHF)方法,一定要有反饋、溝通才去做。
上述技術的成功主要有下述四個關鍵技術。
關鍵技術1 Transformer的強大表征能力為GPT的成功起到了關鍵作用。GPT的本質,大模型技術的核心突破是自監督的學習,大語言模型的核心基礎同樣是 Transformer,這是自然語言處理能帶來突變性飛躍非常重要的特征。Transformer 強大的表征能力和學習能力,是以前的深度學習、方法、算法,或者深度學習模型所不具有的。
關鍵技術2 根據人類偏好校準生成獎勵模型,并對 GPT 模型的“回答”進行評分。
關鍵技術3 強化學習的原理和基本思想。強化學習對開放的環境、變化的環境有不斷交互學習的、舉一反三的能力,這是人類能夠不斷成長的最本質特征之一。從這個意義上來講,對照我們處理的場景和問題,恰恰是不謀而合的,所以它是大場景,自然強化學習得到了更好的關注。如果在AI for science模型恰恰描述了有空間、有時間的動力學過程,它也同樣是核心的關鍵技術之一。
關鍵技術4 提示學習方法。提示學習就是你的經驗、知識怎樣能嵌入到訓練過程中,實現最優解。從這點來說,提示學習不是簡單名詞意義上的,它更多是知識和經驗的運用。
ChatGPT、GPT-4之所以能突破,是因為采用了一系列深度學習的新技術,包括無監督學習、有監督學習、多任務學習,以及基于人類反饋的強化學習,所有這些發展是今天的必然結果。盡管ChatGPT取得了不錯的進展,但它仍然處于發展初期,依然存在一些技術特點和局限。比如訓練時間長、資源消耗高、準確性有待提高、容易存在誤導性等10個問題,因此它還需要不斷研究、改進、解決和完善。
2 挑戰與機遇
ChatGPT認為認知智能的發展分為五個階段,即知覺和感知階段、表示和推理階段、自主學習階段、創造性思維階段、自然交互和社會化階段。ChatGPT自我評分只達到了中間的自主學習階段,這個階段距人類真正學習的模式和模型還有相當大的距離,還需要進一步研究和工作。自然語言處理和ChatGPT技術,只是中國人工智能學會論證人工智能領域眾多研究方向中的一個,只是人工智能技術理論和基礎技術主要研究的、所要發展中的一條,而不是人工智能的全部。從這個意義上來講,我們還需要更多、更全面地發展人工智能。記住,離不開ChatGPT,當然也不能只靠ChatGPT,所以我們需要更深的去思考。
目前,ChatGPT還沒有通過人工智能圖靈測試(當然,迄今為止還沒有人工智能模型真正通過圖靈測試),針對實際變化場景仍有很多工作要做,我們要努力去研究它、發展它、應用它。基礎不牢,地動山搖。ChatGPT 的數理邏輯計算能力薄弱,對基礎數學和邏輯思維等的處理能力、辨偽存真能力都有待加強。此外,ChatGPT 代碼生成存在局限性。ChatGPT促進了 AIGC 與代碼生成的碰撞融合,可進行代碼生成、代碼錯誤檢測修復、代碼優化、代碼理解等任務,但是也依然存在一些局限。
GPT-4促使了通用式人工智能,以前大家認為有數據就夠了,而數據再多在大數據同樣也是小樣本,同樣也是不完整的。從表征來講還只是系統一部分功能和既定的表征,從這個意義上來講我們更需要去做。實際中,數據感知獲取時只是一部分,不夠怎么辦,生成;經驗知識不夠怎么辦,生成。所以,生成智能、生成知識變成了未來人工智能發展非常重要的一部分。
如果回到創新源頭,數據和知識協同學習、推理、聯想、記憶,以及情景感知到認知才是人工智能的本質和基礎。其實ChatGPT對詩的理解、對情景的理解、對情緒的理解、對情感的理解應該與我們相差相當大的距離,這就代表了現在人工智能大模型技術和我們還有相當大的距離。
我們離不開搜索,但我們的生活、我們的創新、我們的思想、我們的情感不能緊緊依靠搜索。人人都能搜索到這種情感,那你的感情、真摯程度可能就要提出一些懷疑和疑問;如果感情都能這樣重復的,那它的真摯度有多少。另外有倫理的問題、道德的問題,偏見的問題,我們需要面對它,而不是因為這是負面的就排斥它。
波士頓動力從1982年開始到現在經過40年還在發展。2022年,給機器人手里拎兩個袋子都不行,今天它就有自己找工具遞給上面的人這樣的智能出現,但它缺乏環境的感知、認知、推理和決策的能力。40年彈指一揮間,但40年對人工智能來講,大腦和運動裝配仍在路上。
ChatGPT發展的十大公開問題有先進性、自主學習性、體驗性、普及性、可擴展性、可解釋性、安全性、推理性、創新性和生態穩定性,也包括其他信任、倫理、道德、法律等方面的問題,值得我們研究,也值得我們期待,更說明這個基礎還有待于進一步加強。
GPT-4是一個大型多模態模型,可以準確地解決難題,雖然在許多現實世界場景中的能力不如人類,但在相關專業和學術基準上展現出類人的水平。比如,相對前面ChatGPT在文本、圖像處理方面是一個新的里程碑。我還要特別強調的是,GPT-4的成功離不開OpenAI研究的團隊,團隊的合理分工、協同、清晰的構架,以及堅實的研究方向和明確的目標任務是他們成功的關鍵,而且是堅持一直把它做成。從這個意義上來講,它對我們的研究和技術的應用也提出了相應的啟示。GPT-4有它的優勢,也有它的問題和局限,就像剛才我講ChatGPT一樣,同樣需要我們去做。
面對人工智能和大模型技術的來臨,我們要熱情的擁抱它,我們要有三個變革,一是用平常的心去對待它,更要有敬畏的心對待它,這樣才能把所有問題的負面影響減少到最小。同樣在教育界,我們需要擁抱它,以平常心和創新的能力去做。
目前,自然語言處理還是不完整的、不完善的,因此也是有發展空間和潛力的,況且整個人工智能領域。自然語言處理仍然面臨很多風險,這時應對的策略首先應該是心態,心態會決定一切。
大模型的技術同樣對大模型多模態學習帶來了新機遇,因為它是視頻技術發展的動力,這里同樣需要去做。一個是微軟在做的Visual ChatGPT也希望擴展到影像,因此有了以擴散模型為代表的視覺模型,從文本到視覺。Google的VIT模型,也是在做視覺,大家不要僅看參數有多少,要看它的功能擴展。Meta發布的SAM 大模型也在關注視覺任務。而用一個模型打遍天下是不可能的,尤其是在影像和視覺領域、一個模型就能把所有問題都解決是天方夜譚。盤古大模型是華為在努力做的事情,百度也在做文心一言的模型,阿里和商湯在做跨語言、圖像多模態大模型,都在路上。此外,清華也做出了一個多模態擴散模型;我們也在做遙感的大模型和醫學領域的大模型,效果還不錯。
另外,ChatGPT 對教育的沖擊很大,教育版的ChatGPT 怎么做,我們要守正和創新;醫療領域對我們來講是挑戰的領域,又是充滿魅力的領域,也是需要我們去做的領域。所以,大模型是通用的計算機,比爾·蓋茨說它可以和通用的計算機相比較。這時候邊界在哪兒、腦子在哪兒,腦子和手怎么并用,手和大腦怎么嵌套,這是解決從語言到影像再到視覺模型的基礎。當然在政、產、學、研、用、商各領域更需要我們去做很多事情,對企業的機遇是不言而喻的。
3 思考與展望
從圖靈測試到人工智能經歷了很多事情,例如,老三論是系統論、控制論和信息論,這里講的模型包括耗散論、突變論和協同論,一直到現在的本體論、三世界和小世界,所有這些都是非線性動力學現象和群體智能現象的一個體現,而感知、認知、學習、推理和決策永遠是人工智能的核心。我們要計算、要感知、要認知,從感知到認知還有漫長的道路要去走,所以說離不開人工智能。人工智能圖靈獎的獲得者在思考如何進行推理,腦科學諾貝爾獎的獲得者在考慮“人如何思考”,生物進化類諾貝爾獎的獲得者也在考慮“生物是如何優化和進化”的,物理領域諾貝爾獎的獲得者啟發了我們在思考人工智能深度學習、深度網絡大模型物理本質是什么,所以說下一代人工智能是我們的主題。可解釋、魯棒、安全、自適應、創造性、遷移性,我們怎么去應對這樣的挑戰才剛剛開始。
深度學習也不是一天就有的,下一代深度學習講了一個可解釋、可通用還遠遠不夠。這時候我們怎么去做,基金委最近下發的十大重點培育項目所列題目就表明了下一代該怎么做;機器人領域有工信部17個部門提出的要求;在場景創新領域,六部委提出了10個場景示范,這些都是國家層面的考慮。所以突破在哪里、問題在哪里,技術我們還需要去發展,從這個意義上來講,從感知到認知涉及到方方面面,心理、哲學、語言、人類工程包括到神經,我們更需要協同發展。所以,源頭創新一定是圍繞本質性問題,我們還在路上。
(參考文獻略)
選自《中國人工智能學會通訊》
2023年第13卷 第4期