從去年開始,國內各大互聯(lián)網公司就先后推出了大模型產品,像是文心一言(百度)、通義千問(阿里)、豆包(抖音)、訊飛星火……
作為互聯(lián)網巨頭,騰訊動作不大,讓人感覺成了大模型缺席者,事實上,騰訊開發(fā)了混元大模型,在騰訊部分產品里,正在發(fā)揮作用。
因為騰訊宣傳力度不強,所以用戶很難注意到,而前兩天,騰訊終于帶著他們的 AI 助手“元寶”強勢來了。
就產品功能來說,元寶與其他的 AI 助手并沒有什么區(qū)別,依然是對話界面+各種智能體。
當然了,幾乎所有的 AI 助手都是如此,主流的 AI 助手里,只有天工開物搞了一個音樂創(chuàng)作的功能,可惜體驗很一般。
信息搜索
回到騰訊元寶上來,按照騰訊官方說法,騰訊元寶接入了微信搜一搜、搜狗搜索、內容涵蓋微信公眾號文章,主打一個內容全面,信息準確。
老狐試著用他們搜索近期關注的一個互聯(lián)網話題——抖音電商 2024 年的 GMV 還值得看好嗎?
元寶生成的回答,邏輯清晰,開頭說明了預測的 GMV 數(shù)據(jù),以及關鍵的興趣電商與貨架電商增長對比,也提到了抖音電商的市場策略和外部環(huán)境的競爭。
可以注意到,文章一共引用了 8 篇文章作為參考,來源比較多樣,從公眾號到新浪新聞、網易新聞甚至還有《財富》雜志,在生成的結果里會標注資料來源,重要數(shù)據(jù)能迅速找到出處。
在生成結果末尾,提供了更多相關文章,基本來自公眾號。
相比于引用資料來說,其實文末的文章質量更高,其中也包含可引用的相關數(shù)據(jù),但它們沒有被元寶收納到“引用資料”中。
為了見到自己的文章出現(xiàn)在引用資料里,老狐找了曾寫過的選題,結果第 7 條和第 8 條是科技狐發(fā)表在不同平臺的同一篇文章。
類似的情況在老狐測試時重復出現(xiàn),優(yōu)化還不夠。
大模型這類涉及到問答形式,需要 AI 引用數(shù)據(jù)資料來生成回答的模式,回答的質量取決于引用資料的質量。
騰訊元寶背后有騰訊的整個生態(tài),尤其是微信公眾號,后者有大量團隊和個人在上面發(fā)布高質量文章,僅就文字內容來說,這是知乎、小紅書比不了的。
但是……沒錯,老狐要說但是。
元寶在生成答案的末尾,附上的內容都是文字,沒有視頻內容,形式上不夠豐富,尤其是在特定的問題上,視頻能呈現(xiàn)出更好的效果。
比如面對“佛跳墻怎么做”這個問題,文心一言會提供視頻內容,其中還有“老飯骨”明星大廚制作的視頻,而元寶只有文字。
這需要騰訊后續(xù)升級優(yōu)化,比如引入視頻號的短視頻,或引入其他平臺如 B站、快手的視頻內容。
文檔總結
文檔總結功能,現(xiàn)在成了大模型內卷的方向之一,尤其是文字長度。
今年 3 月中旬,Kimi 宣布支持文檔最高字數(shù)達到 200 萬字,沒過多久,通義千問就把字數(shù)上限提升到 1000 萬字。
可能有人會質疑上百萬字數(shù)無用,然而,很多企業(yè)一份英文財報字數(shù)就可能超過 100 萬。
騰訊說元寶能一次性解析最多 10 個 PDF/word/tet 文件,一次性閱讀一本書不成問題。
先來看看普通的文章總結,老狐拿公眾號的文章做了測試,結果讓人有些失望。
總結里提到 SU7 的銷量超出預期,以及雷軍設定新的銷售目標,相關數(shù)據(jù)原文有提到,但總結卻沒有列出來。
我甩給它小米的財報 PDF 連接,讓它幫我找出關鍵數(shù)據(jù),這一點,元寶完成得非常不錯。
繼續(xù)增加難度,我同時向它扔了蔚來、小鵬和理想三家車企的去年英文版年報的鏈接,讓它整理一些關鍵數(shù)據(jù)。
它變成了文檔提取失敗,多次嘗試依然無果。
于是我又特地下載三份年報到本地,上傳數(shù)據(jù)讓它讀取。
這回倒是不會提取失敗,生成了相關數(shù)據(jù),并且用表格進行對比,但三家車企數(shù)據(jù)雷同。
老狐猜測原因是三篇財報字數(shù)接近 350 萬,超過了元寶的文字長度限制,于是默認使用了最后上傳的小鵬財報數(shù)據(jù)。
用 Kimi 和通義千問來總結,也無法成功,Kimi 提示“超過對話長度”。
不過,改成只總結蔚來的年報時,元寶正確引用了蔚來的數(shù)據(jù),但卻犯了一個致命錯誤,把 RMB 和 Dollar 弄混了。
*元寶總結的數(shù)據(jù)
*蔚來財報截圖
老狐圓不回來了,可能元寶的英文不佳吧。
值得一提的是,在微信里打開好友發(fā)過來的 word 或 PDF 文檔,可以選擇用元寶打開,通過元寶小程序總結文檔內容。
而在企業(yè)微信里,暫時還不支持元寶打開文檔。
誰是真實的辦公軟件,誰是虛假的辦公軟件一目了然。
AI 寫作
AI 寫作也是如今大模型必提的功能之一,宣傳的文案、策劃等場景,大模型已經能夠滿足。至于技術要求更高、代替老狐工作的長文寫作能力,大模型已經很少提及。
先來看一個比較普通的寫作場景——寫周報,這是我給的 prompt:
“幫我寫一份上周的周報。我周一寫完了之前沒寫完的視頻稿,周二,周三,周四寫了兩篇公眾號稿子,并體驗了一款大模型產品,周五做了測評并寫了一部分文稿”
這是元寶生成的答案。
Prompt 里只有簡單的工作內容,生成的周報豐富了細節(jié),比如“與視頻團隊溝通”、“撰寫過程中注重內容的深度和廣度”。
整體來說,這份周報內容寫得還不賴,完成了大部分框架,根據(jù)實際情況再做調整,便足夠應付咱們工作中的需要。
另外我讓元寶完成一份策劃方案,比如公司團建活動,給出 prompt 為:
“策劃一場公司團建活動,參與人數(shù)為20人,地點就在公司,時間是下午一點半到六點半,活動內容包括近期工作總結,互動游戲。”
生成的活動策劃案第一項是工作總結,安排的三個互動游戲適合室內,游戲道具也有提及。
只不過第三條“心得分享與交流”,在我看來沒有必要,但這部分可能是大多企業(yè)結束團建的儀式。
這份策劃方案大家認為如何?老狐認為還不錯。
邏輯計算和常識
在考驗大模型的邏輯能力時,最常用的題目類型是雞兔同籠求解,不過類似問題已經難不倒普通的大模型,元寶同樣如此。
提高難度,老狐用一道高考模擬題來考驗它,原題是這樣的。
上傳圖片讓元寶識別題目,然而識別出現(xiàn)錯誤。
于是老狐又手動輸入題目,最終計算出一個……錯誤答案!
小伙伴也別覺得元寶計算能力差,事實上,這道題我之前用文心一言、Kimi、通義千問、豆包都計算過(且都無法直接用圖片提取題目文字)。
元寶,文心一言、Kimi、豆包利用不等式知識解題是正確的思路,但是原題需要變通,將 36=4(a+b) 帶入進去提取常數(shù),大模型顯然沒有這個創(chuàng)造力,紛紛選擇硬解,集體翻車。
通義千問計算出了正確答案,不過沒用不等式,而是通過微積分知識,求導確定極值。
通義千問這波是拿宰牛刀殺雞。
我調整了 prompt,讓它用不等式知識計算,看著它輸出了 3 分鐘計算過程,中途還更改計算步驟,最后變成了系統(tǒng)超時。
能否制造并使用工具是人與動物的區(qū)別之一,而能否靈活運用知識,是人與機器的區(qū)別。
常識問題在去年大模型爆發(fā)初期常常見到,還鬧出了“林黛玉倒拔垂楊柳”的笑話。現(xiàn)如今,這個 Bug 已經得到優(yōu)化,元寶在面對這類問題能輕松避開。
老狐用國外的文學知識對它測試,它也能正確指出其中的錯誤。
不過有些陷阱它還是無法避免,比如我在周五問元寶今年多特蒙德為何奪得歐冠冠軍,它說得頭頭是道,然而比賽是周日凌晨才進行。
不過當比賽結束,再問它多特奪冠,它已經能指出其中問題所在。
大模型常識問題需要大量資料支撐,在事發(fā)前,沒有任何資料,它可能就會胡言亂語。
大模型就像是三體人,與人類的詭計多端比起來,還是單純了些。
AI 作圖
在騰訊的宣傳稿里,特意提到元寶作畫的能力。
實際上,如果給到的 prompt 提到的主角單一,并給到環(huán)境描寫,它能生成信息準確的圖片。
一旦主角有兩位,包含不同的細節(jié),元寶生成的圖片就對不上 prompt 了。
此外,在某些場景下,生成的人物面部會很恐怖。
這種情形下選擇重復輸出,能得到一張容貌姣好的美女照片,但眼神依舊怪異,而且傘骨歪斜。
老狐進行了多次測試后發(fā)現(xiàn),如果人物是正面,且臉部占據(jù)畫面較大的面積,元寶對人物面部刻畫會更準確,一旦角度是斜側,或者人物面部較小時,面部就會出現(xiàn)比例失調,尤其是后一種情形。
這不是元寶一個大模型的問題,其他大模型也會如此。
不過有些大模型在處理這類問題時,要討巧得多,要么選擇展示人物背面,避免臉部的刻畫,要么就直接正臉,給側臉是死活不會給的。
在他們面前,元寶、豆包像個耿直 boy,畫人物面部幾率要比其他幾款大模型高得多。
反過來,耿直的元寶也更“聽話”,畫面與 prompt 更契合,用戶更容易得到自己想要的畫面。
總結