文/陳根
在ChatGPT發(fā)布一年后,谷歌終于憋出了大招。當(dāng)?shù)貢r間12月6日,谷歌宣布正式推出大語言模型Gemini。
谷歌表示,Gemini是迄今“規(guī)模最大、功能最強(qiáng)”的AI模型,它分為三個版本,可以滿足不同場景的需求。
第一個版本是輕便的版本Gemini Nano,可以在安卓設(shè)備上離線運行;第二個版本Gemini Pro 是一個更強(qiáng)大的版本 ,它將很快為谷歌的產(chǎn)品提供動力,并且從12月6日開始接入 Bard;第三個版本也是功能最強(qiáng)大、規(guī)模最龐大的Gemini Ultra,主要是為數(shù)據(jù)中心和企業(yè)應(yīng)用設(shè)計,谷歌計劃于明年推出。
當(dāng)然,大家最關(guān)心的肯定還是Gemini的水平。用谷歌的話來說,就是吊打GPT。根據(jù)谷歌展示,針對于性能,在 32 項基準(zhǔn)測試中,Gemini 有30項領(lǐng)先于 GPT-4,其中包括多任務(wù)語言理解基準(zhǔn)測試等廣泛的整體測試,也有生成Python代碼能力的測試。
此外,功能最強(qiáng)大的Gemini Ultra 得分率甚至高達(dá) 90.0%,是首個在大規(guī)模多任務(wù)語言理解 MMLU中超越人類專家的模型,MMLU 綜合運用了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等 57 個科目,用于測試世界知識和解決問題的能力。
除此之外,更值得我們關(guān)注的,是Gemini多模態(tài)能力。我們只要觀察今天市面上的大模型,就會發(fā)現(xiàn),即便是GPT-4,雖然有在往多模態(tài)發(fā)展,但仍主要聚焦在文本處理上。比如ChatGPT,最厲害的地方依然是文字處理能力,能回答各種問題、甚至能寫詩。但除此之外,9月份更新的圖像識別、語音輸入等功能,雖然也可以,但并沒有文字那么給力。Gemini就不一樣,寫詩、畫畫、編歌、剪視頻,無縫理解,是個全才。
打個比方,如果說ChatGPT是一臺高效的單屏電腦,Gemini大概就是一套全功能的多屏工作站。單屏電腦提供基本的計算和辦公功能,而多屏工作站則可以同時處理多個任務(wù),展示更多信息。
除了發(fā)布大模型,谷歌還同時發(fā)布了專門訓(xùn)練AI的最強(qiáng)芯片Cloud TPU v5p,可以說,谷歌這次發(fā)布是做足了準(zhǔn)備。
不過,谷歌的Gemini 只有英語版本,其他語言版本將在未來陸續(xù)推出。但谷歌首席執(zhí)行官 Sundar Pichai 表示,該模型最終將集成到谷歌的搜索引擎、廣告產(chǎn)品、谷歌瀏覽器等等。
當(dāng)然,谷歌Gemini能力到底怎么樣,或許還要等一段時間,市場真正試用過了之后,才會有真實的反饋聲音。但谷歌的這一次發(fā)布,也給了我們很重要的一個啟示,那就是:好飯不怕晚,這也是今天我們國內(nèi)的企業(yè)很缺少的一點。
去年ChatGPT剛推出來的時候,我們的很多企業(yè)就開始布局大模型,各種訓(xùn)練模型,急著推出來,但推出來以后,不是鬧出了各種笑話,就是連公測都不敢公測,只能停留在發(fā)布會層面。很多企業(yè)都打著對標(biāo)ChatGPT的口號,但最后是什么樣子,大家有目共睹。
再來看谷歌,雖然在年初被認(rèn)為是慘敗,但谷歌依然還是投入了足夠的資源和時間,并且還分出了不同版本,提供給B端用戶和C端用戶,才發(fā)布了今天的模型,谷歌的做法,值得我們的企業(yè)學(xué)習(xí)。