三、通用大模型,做行業生意 Q:之前王慧文提到過,大模型和應用場景要同時做。你們覺得這是現在做大模型最好的方式嗎? 張鵬:我覺得這和認知以及團隊的基因有關,就是你更擅長干什么。 老王已經成功過,他對很事情有自己的篤信,他覺得一種技術最終是要落地,結合場景產生實際價值的,這樣會更快。 這個邏輯我也認同,所以我們也會考慮怎么去做落地,比如到底 To B 還是 To C?我們要不要做 To C?如果做 To C 我們到底做什么樣的產品?這些問題最終歸結到我們更相信什么和更擅長什么。 Q:To B還是To C,你們的想法是什么? 張鵬:我們還是比較認同 OpenAI 的路徑,To C 有自己的好處,最主要的目的是聚集用戶,這是獲得用戶量和用戶數據反饋最直接的通路,團隊也基于智譜 AI 自主研發的中英雙語對話模型 ChatGLM2,正式上線了首款生成式 AI 助手——“智譜清言”。To B 更多的是為了市場和最快的收益。 Q:在大模型落地的過程中,智譜 AI 最主要的認知是什么? 張鵬:我們的認知可以概括為:不把目標定為“做中國的 ChatGPT”。從成立起我們就認為預訓練模型是一項革命性的技術,但它有自己的問題,不能包治百病,可能也不是 AGI 的終極方案。不復制 ChatGPT,會讓我們在具體落地過程中和其他團隊有一些差異。 Q:是怎樣的差異? 張鵬:從最早開始我們就定了做通用大模型,沒有做所謂的小模型。之前也有企業說不一定需要大模型,小模型也能很好地平衡成本和效果。但我們認為只有一定規模的大模型,才能夠實現類人的認知能力的涌現。 其次我們希望擁有解決多場景、多任務甚至跨模態的技術,我們不會把模型局限在具體的任務、場景,甚至垂直的行業里。當然行業大模型也沒問題,但是我們認為它可能是階段性的、時代所需的產物,畢竟需要落地,在使用過程能平衡成本和收益。但最終我們還是得推動 AGI,不能停留在一個階段性目標上。 Q:這會如何影響智譜 AI 落地垂直行業的路徑? 張鵬:就算我們做行業落地,用的也是通用大模型,當然中間需要解決的事情會比較多。 Q:怎么說服行業客戶用通用大模型? 張鵬:我們會和客戶拉齊這樣一個認知:所謂的行業能力或專業能力,可以在通用基座上用少量數據的微調和深度學習快速獲得。 如果客戶沒法很好利用通用大模型的能力,而是仍然用專用模型解決問題,本質上和傳統模式沒有區別,可能唯一的區別是行業大模型的成本比之前更高。 但如果客戶強調近期收益,或者場景很狹窄,比如只想提升智能客服的問答效果,那用所謂的專業小模型可能就夠用了。 所以我們就會把以上的觀念同步給客戶,如果他們接受通用大模型,那我們就持續合作共創;如果他們說不,我們只需要把當下的業務搞定,那么我們就用符合用戶成本預算的方案來解決,比如 Model Instance(為企業提供模型 API 的商業模式)方案。 Q:服務客戶和項目反過來對學術有怎樣的幫助? 張鵬:數據反饋、用戶反饋是大家比較了解的最直接的幫助。另外一個幫助是核算收支平衡點,大模型落地的每個行業都還不太一樣,這時候就會倒逼我們在技術上做選擇:是要更大的模型、更高的成本、更好的效果,還是要去平衡成本,比如出一個中等規模的模型,來滿足客戶對成本的要求。 Q:目前比較好的收支平衡點是? 張鵬:目前來看,不同規模的模型有不同的收支平衡點。 四、在榜單上超越ChatGPT,不是真超越 Q:智譜 AI 的團隊規模感覺在大模型創業公司里并不小。 張鵬:因為我們的團隊非常齊全。從數據,到訓練集群的運維,再到核心算法的研究,所有的層次都是自己人。 Q:做大模型的清華系團隊很多,你們交流多嗎?大家的路徑有差別嗎? 張鵬:其實大家的路徑都有所差別。我們比較開放,在學術技術上的交流以及產品上的合作都比較開放,大模型不是靠一家獨大就能做好的,還是需要開放的生態。我覺得做開源也好、免費也好,這些事情都不是為了商業利益。 Q:智譜 AI 也開源了 GLM-130B,開源和商業化會有沖突嗎? 張鵬:兩件事情不是天生矛盾。開源可以提供一個比較繁榮的社區和生態,社區的活力能保證產品的迭代和創新力。 商業化模型版本則會給有需求的客戶提供更好的服務,比如更穩定、安全。所以兩者各有優勢,也可以互相彌補。 我們很多客戶也是開源社區過來的,他們會先用開源版本做簡單的學習和體驗,嘗到了新技術的便利,轉頭找我們做商業化合作。 Q:在通往 AGI 的路上,哪些重要因素能讓團隊跑得更快? 張鵬:首先要認識到大模型不完美。用行為學的方式,去模擬或者定義人的認知能力,這是大模型給我們帶來的一個解決方案。 但就像張?院士說的那樣,大模型構造的是人腦的 system 1,還要引入另一套機制去實現 system 2,去補完大腦的功能。所以從研究角度還要去做一些努力,并且用大模型的優點彌補缺點。 其次是定義好目標。比如現在大家經常會聽到“超越 ChatGPT”的口號,但是把它拆解開來定義清晰不容易,比如超過 ChatGPT 是追趕它哪方面的能力?是在某一個榜單上超過它嗎?上榜就意味著超越嗎? 我覺得認知到事情的本質,就能夠避免做無所謂的消耗。