精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
對話智譜AI CEO張鵬:中國通用大模型,做行業生意|順為系

為何看好智譜AI?

不少圈內人給出的答案都是:自 2019 年成立,智譜 AI 就是“有人、有技術、有客戶”的“完成時”企業。

脫胎于清華 KEG(知識工程實驗室),智譜 AI 每個創始成員單拎出來,都是圈內叫得上名字的學者。比如 CEO 張鵬設計和研發的跨語言知識圖譜系統 XLORE,在國際上頗受好評。

而智譜 AI 合作研發的超大規模預訓練語言模型 GLM-130B,是 2022 年亞洲唯一入選斯坦福評測的全球主流大模型。這個自研的大語言模型,也直接讓智譜 AI 的名字,出現在百度、字節、360、有道等企業的合作名單中。

今年 6 月,在硅谷科技媒體 The Information 的盤點中,智譜 AI 被視為最有可能成為“中國 OpenAI”的 5 家企業之一。

不過,成為“中國的 OpenAI”,并非智譜 AI 的目標。

“中國沒有自己的預訓練模型框架。”張鵬表示。市面上最主流的三種模型訓練路徑都出自西方:GPT 來自 OpenAI,BERT 和 T5 都來自谷歌。若是照搬西方的主流路徑,意味著中國企業已經失去了先發優勢,彎道超車的機會渺茫。

為了打破西方的路徑壟斷,智譜 AI 提出了全新的 GLM(通用語言模型)路徑。若 GPT 的原理可以被比作“根據上文做完形填空”,那么 GLM 完形填空的依據則從上文擴充到上下文——理論上,GLM 的訓練效率會比 GPT 更高,也能理解更復雜的場景。

時至今日,GLM 的探索已經初見成效。“在硅谷,智譜 AI 的 GLM 應該是最被頭部科技企業承認的中國大語言模型。”一名微軟的算法工程師表示。

為了更早推動 AGI(通用人工智能)技術,智譜 AI 沒有選擇推出行業大模型,而是說服行業客戶在通用大模型基座上做微調。

“行業模型本質上是用大模型的殼,重復造了一遍傳統算法的輪子。”張鵬指出行業大模型的局限性,“我們認為只有一定規模的(通用)大模型,才能實現類人的認知能力涌現。”

在下文 36kr 對智譜 AI 創始人張鵬的專訪中,你將了解到:
  • 智譜 AI 是如何同時進行技術研發、行業落地、企業服務的?
  • 為何采用的 GLM,而不是比較主流的 GPT?
  • 在大模型落地的過程中,智譜 AI 最主要的認知是什么?
  • 在通往 AGI 的路上,哪些重要因素能讓團隊跑得更快?
……

一、帶著技術、團隊、客戶,直接入場

Q:智譜 AI 給人的感覺是手里盤的球很多,一邊做技術研發,一邊做行業落地,還能做一些企業服務。你們是怎么做到的?

張鵬:人工智能本來就是一個綜合性學科,如果研究的成果不能很快被應用,它的價值很可能被遺忘。所以在 KEG,我們會把研究和工程放在相對平等的位置上。這個風格也延續到我們出來做公司。

另一個因素是,在大模型時代里,產學研用這件事被極度壓縮,表現為周期變短、距離變近。原來像神經網絡、CV 等技術從被學界研究出來,到真正落地工業產生實際價值,中間要 2-5 年。但 ChatGPT 模型訓練到產品上線,再到有一億全球用戶,可能不超過 1 年。

Q:從 2019 年成立,智譜 AI 的商務合作就沒斷過,當時你們是怎樣讓商業合作跑起來的?

張鵬:我們有一個和別人不一樣的特點,長期有一群工程師和研究員一起工作,所以從成立第一天起,智譜 AI 就是從一個團隊開始的。

所以從公司的發展路徑上來說,我們是帶著技術,帶著團隊,帶著客戶和市場直接啟動。我們是一邊做核心的技術,一邊去拓展市場。從第一天開始,我們就有收入。

Q:你們實驗室的技術對應的客戶和市場是什么樣的?

張鵬:我們團隊早期在學校里做知識工程相關的研究,比如說科技情報分析、數據挖掘,所以服務的客戶群體比較廣泛,國內的科研機構、科技型企業、互聯網企業,甚至包括國際上的頂尖科技企業。

Q:團隊對轉向研究大模型的信心從何而來?

張鵬:說實話,我們也不是一直信心滿滿,一開始也大膽假設,小心求證。

有一句話叫做“預見未來”,這和我們一開始主要的研究方向有關,包括數據挖掘、機器學習、算法這些知識工程下面的分支。這個過程中我們可以做科技趨勢的分析和對未來的預判。

Q:智譜 AI 能預見的是什么?

張鵬:從宏觀角度來講,人工智能技術的發展經歷了幾個階段,比如此前到了感知智能的階段。

我們認為下一代的技術應該是認知智能。認知智能的技術要解決的問題,和上一代的感知智能不太一樣,比如多模態需要更大的數據量、更類人智能的能力,以及多任務、多場景的一些通用化的能力等等。

所以公司成立的時候,我們就在研究大模型相關的底層技術,包括算法。2021 年我們就有了自己的成果 GLM,比 GPT-3 稍微晚了一點。

二、預訓練模型的框架,正在被西方壟斷

Q:你們有沒有橫向和國內其他團隊對比過技術和研究進展?

張鵬:我還不清楚到底應該怎么和別人比(笑)。如果要比的話,我們更愿意跟世界最頂尖水平去比,比如 OpenAI。當然在技術層面上,我們保持開放,和國內其他團隊的交流保持得還不錯,但我們不會特別從競爭對手的角度去看待問題。

Q:硅谷的進展是大模型賽道很重要的一個參照,那邊有直接對智譜 AI 的成立產生重要影響的時刻嗎?

張鵬:我個人認為有兩件事。

第一件是 2020 年 5 月 GPT-3 的發布,直接將預訓練模型的參數規模推到 1000 億以上,模型表現出的智能確實超乎想象。我們在第一時間就開始研究參數量的影響,后來對這事兒有了更深刻的理解后,我們對投入更多資源和精力去做大模型也更加堅定。

第二件事就是 ChatGPT 的發布。其實在 ChatGPT 之前,InstructGPT 和 WebGPT 等技術我們一直有,也預感到基于 GPT-3 這樣一個優秀千億基座的智能應用會迎來爆發。但 ChatGPT 的上線給我們一個明顯信號:預訓練模型已經到了完全可使用且好用的階段,是產品化的很好范例。

Q:這兩件事的具體影響是什么?

張鵬:GPT-3 對我們的影響是堅定了要自研一個稠密的、千億的、雙語的模型。因為當年我們研究完之后也知道,做這樣一件事情投入是非常大的,尤其是算力、人才、團隊、數據。

2020 年智譜 AI 才成立一年多,但 OpenAI 已經做了兩年多,他們的估值遠超我們,很多資源也遠超我們。所以那時即便聯合清華的研究團隊,做大模型也是一件有挑戰的事,團隊經過了激烈的討論才確定。所以 GPT-3 給了我們信心。

Q:團隊激烈討論的重心是什么?

張鵬:那個時候 GLM 還沒有完全定型,之前我們用的這些模型,比如 MoE(專家混合模型,在 Transformer 架構的基礎上增加了可以處理不同數據的“專家層”)等方法,雖然也能通過稀疏化的方式把模型參數推到很大,但效果并不太好。

我們內部也在討論是繼續走稀釋模型路徑,還是做更大的稠密模型。那個時候因為 OpenAI 沒有公開很多技術細節,大家也不知道怎么復現,國外像 Meta、BigScience,復現 GPT 都不能算特別成功。所以內部也在討論,我們該選用什么樣的技術路線,然后該怎么做這件事,以及目標是什么。

Q:智譜 AI 采用的是 GLM,不是比較主流的 GPT。團隊是怎么考慮技術路線問題的?

張鵬:單純從技術發展上來看,其實早期預訓練模型就有幾個類型,比如 GPT、BERT 還有 T5,每個訓練框架都有適合的某些任務和場景。

在早期,BERT 的效果比 GPT-1 和 GPT-2 更好,直到參數規模更大的 GPT-3 出現。所以,我們做 GLM 的原因,是希望把不同預訓練模型的優勢組合到一起。

還有一個原因是,中國沒有自己的預訓練模型框架。無論是 GPT、BERT,還是 T5,都是西方的科學家提出的底層技術,路徑是被西方壟斷的狀態。我們希望打破壟斷,所以沒有完全復刻 OpenAI 的路徑。

Q:采用 GLM 是一種冒險的做法,團隊是什么時候覺得路線可行?

張鵬:參數規模達到千億規模的時候,我們突然發現 GLM 對人類輸入意圖,以及對一些常識或者知識類信息的理解能力,出現了一些意想不到的表現。我最喜歡舉的一個例子是:

當你問大模型一個簡單的問題:一個嬰兒出生的時候,它的頭長是身長的 1/4,如果一個嬰兒出生的時候身長是 50 厘米,請問它的頭長是多少?

這是一個很簡單的小學的數理的數學的題目,對吧?

但 GLM 模型給出的答案是非常有意思的,它并沒有用簡單的“50×1/4”這種方式來計算,而是用了“50÷4”來計算。背后的邏輯是,模型理解了“乘以 1/4”和“除 4”之間在數學上的等價關系。

我從來沒有在參數規模小一點的模型上看到這樣的現象。

三、通用大模型,做行業生意

Q:之前王慧文提到過,大模型和應用場景要同時做。你們覺得這是現在做大模型最好的方式嗎?

張鵬:我覺得這和認知以及團隊的基因有關,就是你更擅長干什么。

老王已經成功過,他對很事情有自己的篤信,他覺得一種技術最終是要落地,結合場景產生實際價值的,這樣會更快。

這個邏輯我也認同,所以我們也會考慮怎么去做落地,比如到底 To B 還是 To C?我們要不要做 To C?如果做 To C 我們到底做什么樣的產品?這些問題最終歸結到我們更相信什么和更擅長什么。

Q:To B還是To C,你們的想法是什么?

張鵬:我們還是比較認同 OpenAI 的路徑,To C 有自己的好處,最主要的目的是聚集用戶,這是獲得用戶量和用戶數據反饋最直接的通路,團隊也基于智譜 AI 自主研發的中英雙語對話模型 ChatGLM2,正式上線了首款生成式 AI 助手——“智譜清言”。To B 更多的是為了市場和最快的收益。

Q:在大模型落地的過程中,智譜 AI 最主要的認知是什么?

張鵬:我們的認知可以概括為:不把目標定為“做中國的 ChatGPT”。從成立起我們就認為預訓練模型是一項革命性的技術,但它有自己的問題,不能包治百病,可能也不是 AGI 的終極方案。不復制 ChatGPT,會讓我們在具體落地過程中和其他團隊有一些差異。

Q:是怎樣的差異?

張鵬:從最早開始我們就定了做通用大模型,沒有做所謂的小模型。之前也有企業說不一定需要大模型,小模型也能很好地平衡成本和效果。但我們認為只有一定規模的大模型,才能夠實現類人的認知能力的涌現。

其次我們希望擁有解決多場景、多任務甚至跨模態的技術,我們不會把模型局限在具體的任務、場景,甚至垂直的行業里。當然行業大模型也沒問題,但是我們認為它可能是階段性的、時代所需的產物,畢竟需要落地,在使用過程能平衡成本和收益。但最終我們還是得推動 AGI,不能停留在一個階段性目標上。

Q:這會如何影響智譜 AI 落地垂直行業的路徑?

張鵬:就算我們做行業落地,用的也是通用大模型,當然中間需要解決的事情會比較多。

Q:怎么說服行業客戶用通用大模型?

張鵬:我們會和客戶拉齊這樣一個認知:所謂的行業能力或專業能力,可以在通用基座上用少量數據的微調和深度學習快速獲得。

如果客戶沒法很好利用通用大模型的能力,而是仍然用專用模型解決問題,本質上和傳統模式沒有區別,可能唯一的區別是行業大模型的成本比之前更高。

但如果客戶強調近期收益,或者場景很狹窄,比如只想提升智能客服的問答效果,那用所謂的專業小模型可能就夠用了。

所以我們就會把以上的觀念同步給客戶,如果他們接受通用大模型,那我們就持續合作共創;如果他們說不,我們只需要把當下的業務搞定,那么我們就用符合用戶成本預算的方案來解決,比如 Model Instance(為企業提供模型 API 的商業模式)方案。

Q:服務客戶和項目反過來對學術有怎樣的幫助?

張鵬:數據反饋、用戶反饋是大家比較了解的最直接的幫助。另外一個幫助是核算收支平衡點,大模型落地的每個行業都還不太一樣,這時候就會倒逼我們在技術上做選擇:是要更大的模型、更高的成本、更好的效果,還是要去平衡成本,比如出一個中等規模的模型,來滿足客戶對成本的要求。

Q:目前比較好的收支平衡點是?

張鵬:目前來看,不同規模的模型有不同的收支平衡點。

四、在榜單上超越ChatGPT,不是真超越

Q:智譜 AI 的團隊規模感覺在大模型創業公司里并不小。

張鵬:因為我們的團隊非常齊全。從數據,到訓練集群的運維,再到核心算法的研究,所有的層次都是自己人。

Q:做大模型的清華系團隊很多,你們交流多嗎?大家的路徑有差別嗎?

張鵬:其實大家的路徑都有所差別。我們比較開放,在學術技術上的交流以及產品上的合作都比較開放,大模型不是靠一家獨大就能做好的,還是需要開放的生態。我覺得做開源也好、免費也好,這些事情都不是為了商業利益。

Q:智譜 AI 也開源了 GLM-130B,開源和商業化會有沖突嗎?

張鵬:兩件事情不是天生矛盾。開源可以提供一個比較繁榮的社區和生態,社區的活力能保證產品的迭代和創新力。

商業化模型版本則會給有需求的客戶提供更好的服務,比如更穩定、安全。所以兩者各有優勢,也可以互相彌補。

我們很多客戶也是開源社區過來的,他們會先用開源版本做簡單的學習和體驗,嘗到了新技術的便利,轉頭找我們做商業化合作。

Q:在通往 AGI 的路上,哪些重要因素能讓團隊跑得更快?

張鵬:首先要認識到大模型不完美。用行為學的方式,去模擬或者定義人的認知能力,這是大模型給我們帶來的一個解決方案。

但就像張?院士說的那樣,大模型構造的是人腦的 system 1,還要引入另一套機制去實現 system 2,去補完大腦的功能。所以從研究角度還要去做一些努力,并且用大模型的優點彌補缺點。

其次是定義好目標。比如現在大家經常會聽到“超越 ChatGPT”的口號,但是把它拆解開來定義清晰不容易,比如超過 ChatGPT 是追趕它哪方面的能力?是在某一個榜單上超過它嗎?上榜就意味著超越嗎?

我覺得認知到事情的本質,就能夠避免做無所謂的消耗。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
再融25億,這家最像OpenAI的中國企業浮出水面!
智譜AI CEO張鵬:ChatGLM全球超過百萬下載,為行業智能化降本增效|中國AIGC產業峰會
清華系ChatGPT發布!唐杰團隊打造,專對中文優化,把握新聞動態
王小川:做搜索,我晚了;做AI,我趕上好時候
一份來自Huggingface的大模型進化指南:沒有必要完全復現GPT-4
認知ChatGPT的過程,就是消除偏見的過程
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 两当县| 从化市| 全椒县| 乌鲁木齐县| 始兴县| 三门峡市| 新宁县| 台安县| 侯马市| 江孜县| 连州市| 巴彦淖尔市| 丰原市| 阳新县| 万盛区| 锦屏县| 彰武县| 万源市| 包头市| 天等县| 应用必备| 安乡县| 江永县| 龙川县| 保亭| 民权县| 雅安市| 乐山市| 岳普湖县| 连城县| 郁南县| 德庆县| 上林县| 宜阳县| 达孜县| 沽源县| 通河县| 泰安市| 锡林浩特市| 高平市| 满洲里市|