GPT是一個迅速發展的技術,而且還在快速地發展過程中。因此,談論GPT的能力邊界,是一個高風險的問題。尤其是我對GPT的底層技術理解得并不好。但是,階段性地做一個總結和探討仍然是必要的,今天試一下。
首先,AI,即人工智能,經過了幾十年的發展。主要是兩大路線,一是邏輯方法,二是統計方法。邏輯方法就是讓電腦學會像人一樣邏輯推理,知其然進而知其所以然。這是很直觀的方法,因為人類就是這么思維的。但是這條路很難走,進展很緩慢。后來就走到另一條路上,就是用統計方法。這條路看起來不靠譜,但卻成果豐富。所以目前統計方法是AI的主流路徑,集合了大量的資源。統計不是死統計,是通過深度神經網絡來實現的。GPT是神經網絡模型的一種。
打個比方,要計算7乘于8,有兩個方法,一是理解問題即理解乘法的規則和原理,7乘于8就是7個8相加,這正是我們小學學的方法。另一種方法是直接背乘法表,7856。一個人可能并不理解乘法的法則,但只要會背乘法表,也能得到正確答案。可是對于一般性的問題,就沒有嚴格的“乘法表”可以查了。那咋辦?那就查所有網絡,發現有很多的地方提到7*8,比如有一萬處,然后有9900處都是56,剩下100處是各種各樣別的答案(比如腦筋急轉彎之類的)那么大概率答案就是56,這就是統計方法。
顯而易見第一種方法更靠譜,但計算機并不擅長這個事,反而很擅長記憶和搜索。人們發展了GPT算法,讓計算機能夠高效地搜索。但其實GPT并不理解你到底在問什么,他只是搜索類似的問題,通過所謂的參數計算,然后做統計總結。為什么很多問題,結果出乎意料地好呢?一是文本的語料是非常最多的,所以GPT的表達能力確實很強,哪怕是胡說八道也有模有樣。二是大部分的問題都被人想過了無數遍并有公開的答案,GPT統計總結的答案會很棒,畢竟電腦很擅長搜索和總結。這里提一句,這個總結能力就是GPT(transformer)模型的特長。
可以看出,其實GPT并不明白問題是什么,他只是在統計。可以看出,GPT的能力很大程度上依賴數據。對于數據比較多、數據質量比較好的問題,GPT的回答會很好。但對于數據比較少,數據質量不高的問題,其實GPT的回答很隨緣了。
如何提高GPT的智能呢?顯而易見的是,沿著上面思路,提高數據量,相應提高大模型的參數量。GPT從1到4,實際上就是這么做的,并且效果確實越來越好。但這個空間有多大呢?至少沒有以前那么大了,現在主流的模型預訓練的語料都已經在15-20萬億token的級別,肯定是沒法數量級的提高了。
這個語料看著數量很大,但是因為覆蓋了很多問題,所以針對不同的問題,其實豐富程度并不一樣。在普通的領域,語料極其豐富。但這些問題其實沒啥價值。在一些比較專業的領域,語料就不是很豐富了,并且公開的東西質量并不是很高。因此回答的質量也不穩定。這里可以給模型開個小灶,用一些標注過的質量比較高的數據去喂它,就是所謂的微調。這樣可以提高模型的能力。結果來看,這種提高是有限的。GPT的智商仍然是“殘疾”,記憶力超強,邏輯推理能力很弱,只有有限比較呆板的舉一反三能力。
那么如何提高邏輯推理能力呢?這個很麻煩。比如一道稍微復雜的數學題,GPT不會做。因為網上找不到類似的問題和答案。但你又不能教GPT邏輯思維,它的基因里就沒有,也不是說不可能有,只是有的話肯定不叫GPT。只能在統計的路上繼續優化。
這就產生了一個叫做思維鏈的技術。意思說,一個問題,網上抄不到高質量的答案。那么我就模仿人類思維,把一個問題分解成好幾個步驟,然后每一個步驟再想辦法去模仿現成的答案,最后拼出一個答案來。這里面還有個技巧,喂給他很多很多分解問題的思路和答案的模版,鼓勵他模仿,模仿得像就給獎勵。
這么一搞,大模型就看起來有推理能力了,盡管其實還是在裝。畢竟分步以后,每個小問題就更可能能夠抄到答案,從而整個問題就有答案,解題能力提高。哪怕是抄錯了,你也能看到它錯在哪,對的地方對你總是有幫助。所以思維鏈確實有一定效果。這就是closeAi的o1看起來比4o強,deepseek 的R1看起來比v3強很多的原因。
但是思維鏈依賴強化學習,依賴于確定性的反饋,所以比較適合有標準答案的問題,比如數學題。思維鏈技術還有那么一點點作弊的嫌疑,專門對數學等測試進行了強化訓練。
目前來看,主流的最強模型就是o1和R1這種。個人猜測,其能力提升的空間有限。因為GPT本質上不會邏輯思維,只是模仿。就是數據驅動。那么如果依靠公開的數據,已經接近極限了。如果用專業的數據去強化訓練,模型的專業能力可能更強,但沒用通用性,也就談不上AGI了。
當然目前這種水平已經在很多場合下比一般人強。評價ai的標準并非能夠創造新知識,而是能夠應用現有的知識干活,比如根據提示寫文案編程序什么的。但目前GPT完成任務的能力,尤其是完成專業任務的能力還不強。往后發展GPT有兩條路:一條是想辦法提高它的智商,然后應用不就順理成章了嘛。二是接受它現有的智商水平,強化它的專業能力。
如果我的判斷是對的,第二條顯然是更現實的路。但很少人鼓吹這條路,為什么呢?從美國來看,大模型主要是幾個巨頭在玩,微軟和closeAi是個聯盟,亞馬遜和anthoropic是個聯盟,然后是google和meta,還有馬斯克的x。蘋果稍微慢一點。他們都有些路徑依賴,微軟和亞馬遜的優勢是大算力,google和meta還有x都有大量的數據。他們都想著做大買賣,先天希望大力出奇跡,能從他們的數據里面煉出更高智能的GPT。至于第二條路,他們沒什么優勢,也看不上那點小錢。真走第二條路的話,誰有專業的數據誰牛逼。這個跟他們沒什么關系。
這里再說一下微軟和closeAi這一對組合。亞馬遜和anthropic同理。微軟大量投資closeAi,有比較大的股份,一方面微軟財大氣粗,再一個closeAi燒的錢相當部分是租微軟的云算力,其實很多錢又回來了,還能創造應收和增長,股價不停漲。萬一賭成了AGI大賺一票。賭不成的話,其實肥水不流外人田。這類似黃四郎剿匪,自己出的如數奉還,其他人出的三七分賬,穩贏。至于clsoeAi就是個馬仔,爛命一條,賭就賭了。
所以,盡管各懷鬼胎,但對外都會一致鼓吹AGI,并且瘋狂加碼投資。只是都便宜了老黃。
這次deepseek的r1,對老黃的影響其實相對間接,對closeAi和anthropic明顯不利。因為把他們的路給變窄了。如果走第二條路的話,顯然開源更有優勢,尤其是deepseek又便宜又好。他們兩家更是只有AGI華山一條道了。Deepseek相當于把他們的退路堵死了。所以anthropic的CEO出來說話,要禁中國的卡,明顯是慌了。
真可謂一損俱損一榮俱榮,美國的產業、政府、華爾街都把自己壓在這條路上了。這些人即便懂真實情況,也不會說的。還有一堆在船上的投資人,比如蛋餅之流,一知半解的也只能鼓吹AGI。畢竟成了有錢賺,賠了也是客戶虧錢。最可怕的是那些賽博信徒,純賭命。
其實,這兩家畢竟是馬前卒,他們的路走窄了,相當于美國的路走窄了。畢竟Ai對美國太重要了,他們除了在數字產業還有優勢,也沒剩啥了。
最后強調一點,這篇說的是GPT的能力邊界,不是ai的能力邊界。這是有區別的。另外,即便在目前的GPT水平下,做好應用,也是能夠提高一些生產力的,但能賺到真金白銀很可能不是這些死燒錢的巨頭。如果是這樣,一把開源的deepseek就是改變格局的孫悟空了。