文 / 道哥
“AI具備思維了么? ”“AI應該具備怎樣的思維能力? ”這是一直以來科技界頻繁探討并力主攻克的難題。
自從 OpenAI 發布新模型 o1-preview后,這道難題大致有了解法:
有人用門薩(MENSA)測試題“拷問”o1-preview,被它120分的智商震驚到合不攏嘴;
數學大佬陶哲軒在和o1-preview碰觸后,發現它竟然能成功識別出克萊姆定理;
一位天體物理學論文作者,僅用6次Prompt,就讓 o1-preview在1小時內,創建了代碼運行版本,相當于他博士生期間10個月的工作量。
……
換言之, o1-preview已經具備了思維能力,甚至可以“三思而后行”。
據了解,o1-preview和GPT系列模型最大的區別在于,o1-preview是在思考之后解答用戶問題,輸出高質量的內容,而非迅速回應無效答案,即用模仿人類思維過程的“慢思考”代替過去追求快速響應的“快思考”。
但其實,這種思想和方法并非OpenAI的首創,更非獨創。早在7月底的ISC.AI2024大會上,360集團創始人周鴻祎就宣布,“用基于智能體的框架打造慢思考系統,從而增強大模型的慢思考能力”。
01 英雄所見略同
誠如前文所言,o1-preview之所以變得更強大、更聰明,其本質是用模仿人類思維過程的“慢思考”代替過去追求快速響應的“快思考”。
英雄所見略同。周鴻祎不僅早于OpenAI提出這一理念,且在之后多次強調類似理念。
對于o1-preview的推出,周鴻祎在其最新發布的短視頻中表示,“o1-preview不同于以往大模型用文字來訓練,而是像自己和自己下棋,通過強化學習來實現這種思維鏈的能力。”
在周鴻祎看來,人類思維有“快思考”和“慢思考”之分。快思考的特點是直覺敏銳、無意識,反應很快但精度不夠。GPT類大模型汲取海量知識,主要學習的是快思考能力,這也是為什么它們能脫口而出,但常常答非所問、“胡說八道”的原因,“就像人一樣,不假思索出口成章而不出錯的概率很小。”
慢思考的特點則是緩慢、有意識、有邏輯性,需要分解成詳細的步驟,好比寫一篇復雜的文章,要先列提綱,再根據提綱去搜集資料和素材,然后討論、撰寫、潤色和修改,直至定稿,“o1-preview擁有了人類慢思考的特質,在解惑答疑前會反復地琢磨、推敲,可能還會自我提問千遍,最后才給出結果。”
不過,盡管o1-preview在“慢思考”的加持下取得了令人驚喜的進展,但其仍然難稱完美,尚存在幻覺、運行速度較慢、成本高昂等諸多“痼疾”,也限制了其應用范圍。
對比之下,提前意識到“慢思考”對AI重要性的360,憑借著行業首發、全棧自研的CoE(Collaboration of Experts,專家協同)技術架構和混合大模型,在o1-preview推出之前就已實現應用落地。
據了解,360在今年7月底正式發布的CoE技術架構中,強化了“慢思考”的使用,驅動多個模型分工協同、并行工作,執行多步推理。
并且CoE技術架構帶來更精細的分工、更好的魯棒性、更高的效率和可解釋性和更深的泛化性,能夠加快推理速度,以及降低API接口和Token所需費用。
可以說,這一次,中美兩國的人工智能企業在研發思路上罕見地站在了同一條起跑線,并且中國企業的起跑時間還要早一些。
02 集齊龍珠,召喚“神龍”
和同業選手顯著區隔開的是,CoE技術架構并非只接入了一家企業的模型,而是由360牽頭,百度、騰訊、阿里巴巴、智譜AI、Minimax、月之暗面等16家國內主流大模型廠商組成“聯合艦隊”。
同時,其還接入了很多十億甚至更小參數的專家模型,讓整個系統更加有的放矢,更具能動性、更加智能。
雙管齊下的舉措,使CoE技術架構輕松實現“量體裁衣”,達致資源、效用最大化:一邊“集齊龍珠,召喚神龍”,讓最強的模型啃最硬的“骨頭”,一邊調用更精準、更具特色的小模型,解決簡單的淺層疑問。
目前,CoE架構作為底層支撐,已在360AI搜索、360AI瀏覽器等產品中落地。
360AI搜索的“深入回答”模式,涉及7-15次的大模型調用,比如可能會涉及1次意圖識別模型調用,1次搜索詞改寫模型調用,5次搜索調用,1次網頁排序調用,1次生成主回答調用,1次生成追問調用。
由此導向的工作鏈路分為三步,即首先構建意圖分類模型,對用戶的發問進行意圖識別;接著打造任務路由模型拆解問題,劃分成“簡單任務”、“多步任務”和“復雜任務”,并對多個模型進行調度;最后構建AI工作流,使多個大模型協同運作。
這樣一來,360 AI搜索不光考慮到了任務的動態性和復雜性,還能夠根據任務的具體情況實時調整處理策略和資源分配,化解繁瑣任務時更加靈活和高效。
03 組隊較量,戰力更強
360AI瀏覽器中,除了上線“多模型協作”,另一大亮點便是入駐了國內首個大模型競技平臺——模型競技場。
“大模型競技場”,同樣支持調用國內16家主流大模型廠商的54款大模型,包括“組隊較量”、“匿名比拼”、“隨機對戰”等功能,幫助用戶在最短的時間獲取最優解。
尤其是“組隊較量”功能,用戶可以自由選定3款大模型,和任意一款或兩款大模型PK。
這么做的好處顯而易見。多個大模型在同一時空激烈“賽馬”,展開就速度、耗時、效率等多個維度的量化比拼或“秀肌肉”,對用戶來說,交叉比證后,能更為直觀地評估并裁奪出最佳方案。
事實上,當下不少國產大模型在單項指標上都能打平甚至完勝GPT-4,但論整體實力,差距就顯現出來了。
CoE技術架構的思路,正是改變這種“單打獨斗”的做法,構建大模型“精英集群”、“團戰”打法,從而各取所長,形成“最強大腦”,迎戰o1-preview和GPT-4o。
同時,在“比學趕幫超”的濃厚氛圍中,碰撞出行業的一些集成標注,提高不同模型間的兼容性,升級用戶體驗。
尊因循果,得益于底座的整合創新,360混合大模型在翻譯、寫作、學科考試、代碼生成等 12 項具體測評中取得了80.49分的綜合成績,大幅領先于GPT-4o的69.22分;特別是在“詩詞賞析”、“弱智吧”等這類比較具有中文特色的細分賽道,領先身位進一步擴大。
即便面對 o1-preview,360混合大模型在未經專門優化的情況下也展現出了能與之抗衡的力量。
經過21道復雜邏輯推理題測試結果顯示,其效果與OpenAI o1-preview相當,完全超越GPT-4o,有時還能超越o1-preview。
可以說,CoE的整個流程就是在踐行人類思維過程的“慢思考”,涵蓋分析、理解、剖判等關鍵環節,內涵了愈發“類人”的傾向。
正如周鴻祎認為的,“模型知道什么時候自己不懂,然后找方法去'查詢’或'驗證’答案,而不是依賴模型自身儲存所有知識。”
寫在最后
在AI這條賽道上,“慢思考”無疑是人工智能發展到現在的一大突破。
長線看,“慢思考”更是角力AI賽道的“勝負手”。“以后比的不是多快能給你答案,而是給的答案完不完整,這也會改變人工智能服務的業態,人工智能到最后還是要參考人類大腦的組成來構造工作模式”,周鴻祎說。
360憑借前瞻性的技術洞察和篤行實干,尋獲一條充滿自主特色的AI發展路徑。這一路徑給中國的AI進程提供了新的思路,也使中國大模型廠商媲美甚至超越OpenAI成為可能。