精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
月之暗面楊植麟:大模型進入長文本時代,無損壓縮才是有效的規(guī)?;?| WISE2023商業(yè)之王大會

11月28-29日,36氪WISE2023 商業(yè)之王大會在北京國際會議中心盛大舉辦。本屆大會以“太陽照常升起 The Sun Always Rises”為主題,橫跨一個主會場與六大垂直領(lǐng)域?qū)觥V鲿鼍劢埂拔磥?650天”、“在產(chǎn)業(yè)洪流中”、“進擊中的萬聯(lián)網(wǎng)”、“AI與商業(yè)增量”、“全球品牌看中國”、“科技至上 共鑒創(chuàng)新”六大篇章重點議程,邀請全領(lǐng)域商業(yè)大咖展開為期兩天的頂級商業(yè)對話,向現(xiàn)在提問,給未來答案。

在11月29日下午的WISE主會場演講中,月之暗面創(chuàng)始人楊植麟為我們帶來了對大模型的最新思考。

ChatGPT帶來的熱潮已經(jīng)持續(xù)一年,這一年里,國內(nèi)大模型市場快速走完從0到1的過程,市場競爭正在逐漸深化。僅僅做出一個通用大模型已然不夠,在接下來的AI競賽中,如何真正提升模型能力,是決定模型是否真正可用的關(guān)鍵。

成立于2023年的月之暗面(Moonshot),是大模型領(lǐng)域的一位關(guān)鍵玩家。過去五年,月之暗面聚集了一支頂尖AI團隊,他們曾參與Google Bard、Gemini、盤古、悟到多個大模型的研發(fā)過程中。

今年10月,月之暗面正式發(fā)布了第一款對話類產(chǎn)品Kimi Chat,具備世界級的長文本處理能力,該產(chǎn)品支持約20萬字中文的上下文長度,使得整體表現(xiàn)非常驚艷。楊植麟認為,如今基于Transformer架構(gòu)的大模型,是“新時代的計算機”,參數(shù)數(shù)量決定計算復(fù)雜度,上下文長度決定內(nèi)存大小——因此,上下文長度是毫無疑問的關(guān)鍵所在。

上下文長度也正是近期AI圈中的比拼熱點,各家都在這一指標上你追我趕。但這背后的核心問題在于:什么才是真正有效的規(guī)模化?

在演講中,楊植麟表示,規(guī)模化是通向AGI的核心,而隨著模型不斷迭代,長文本會逐漸取代微調(diào),成為定制模型的關(guān)鍵技術(shù)。但通過滑動窗口、降采樣、小模型等技術(shù)捷徑實現(xiàn)上下文窗口延長,都是“技術(shù)捷徑”。現(xiàn)在大模型應(yīng)該真正做到的,是對數(shù)據(jù)的無損壓縮,才能真正提升模型能力。

而未來,大模型的作用機理,也會讓AI時代的原生App開發(fā)經(jīng)歷范式轉(zhuǎn)變?!耙郧?,探索產(chǎn)品PMF可能是解鎖手機密碼,需要試一個個密碼,但未來,可能是由產(chǎn)品經(jīng)理指出一個區(qū)間,借助大模型的暴力計算,來找到最好的解決方案?!彼硎尽?/p>

來源:36氪

以下是演講實錄,內(nèi)容經(jīng)36氪編輯:

楊植麟:大家好!今天非常高興有機會來到這里,也感謝36氪的邀請,今天我分享的主題是《AGI需要真實的規(guī)模化》。

先從50年前的一個搖滾樂隊開始講起。1973年的時候,著名的搖滾樂隊Pink Floyd發(fā)行了他們一張非常重要的專輯,叫《月之暗面》(The dark side of the moon)五十年后,我們成立了一家AGI公司,名字也叫“月之暗面”。 這個名字跟AGI其實是相關(guān)聯(lián)的。因為月亮的背面我們其實平時是看不到的,平時我們能看到的可能是月亮發(fā)光的一面,但是它的背面非常引人入勝,非常的神秘。就跟AGI一樣,我們不知道智能的極限到底在哪里,不知道我們AGI會用什么樣的方式來實現(xiàn),實現(xiàn)之后又會發(fā)生什么樣的事情。所以,月之暗面也是表示了我們愿意,而且非常希望能夠長期去探索月球的背面是什么樣的。

在過去的五年的過程中,我們聚集了一支人才密度非常高的團隊,我們主導(dǎo)和參與了國內(nèi)外的非常多經(jīng)典大模型的開發(fā),包括Google Bard,google Gemini、盤古和悟道一系列的大模型。

我們也發(fā)明了歷史上第一個全面超越了RNN的Transformer語言模型。我們團隊的很多作為第一作者和核心貢獻者發(fā)明了的技術(shù),被許多主流的產(chǎn)品多采用,比如,LLaMA就用了我們很關(guān)鍵的Positional encoding技術(shù),像Stable Diffusion網(wǎng)絡(luò)架構(gòu)里面的兩個核心的架構(gòu),里面的Group Organization也是由我們團隊發(fā)明的。

這是我們的產(chǎn)品Kimi Chat,它最主要的特點是具備世界級的長文本處理能力。這其中最主要的兩個點是,一是到底能處理多少字,我們能支持高達20萬甚至更長的上下文窗口的處理。

除此之外,我們采用了無損壓縮技術(shù),所以使得說在處理很長的上下文的同時,也能夠保證信息處理的準確性,不會出現(xiàn)像lost in the middle(某些中間層數(shù)據(jù)沒有學(xué)到有效的特征表示)的問題,就不管你的答案是出現(xiàn)在開頭、中間、結(jié)尾,還是說需要融合不同的文檔位置的問題進行回答,都可以給出準確的答案。

我們的用戶和我們共創(chuàng)了很多新玩法。舉一個非常有意思的例子,我們有一個做投資行業(yè)的朋友,他們暑期想招實習生,所以他在我們系統(tǒng)上傳了50份簡歷,每份簡歷都是一個PDF文檔,這時候就是需要系統(tǒng)有很強的上下文處理能力。

50個簡歷上傳之后,朋友就給他提要求。比如實習生可能要具備一定的英語水平、有比較強的技術(shù)背景、要對AI和投資也有熱情。我們的Kimi chat,在閱讀完這50份簡歷之后,馬上就給出來了Top 5推薦。最后Top2的兩個人剛好就是他們最后實際被錄用的實習生。

這只是其中一種,還有各種各樣的例子。比如說,你可能平時打車有很多發(fā)票整理工作,現(xiàn)在就可以直接上傳這50個發(fā)票,Kimi Chat就可以自動給整理你過去一個月的行程到底是什么樣的,直接整理出來一個報銷文檔。

又或者有好幾篇英文論文,你想對他做比較、分析,Kimi Chat都可以利用它的長文本能力,去很好的完成任務(wù)。 如果放到五年前,AI的這些技術(shù)突破——幫你篩選簡歷、去挑選實習生,我認為是完全不可想象的。如果我們看歷史的發(fā)展,這里面其實有一些偶然性,也有一些必然性,我愿意稱之為是偶然中的必然。

在2022到2023的時間點,我們剛好具備了一些非常重要的歷史性因素。 第一個重要的因素是,發(fā)展了二十多年的互聯(lián)網(wǎng),這二十多年里,誕生了像google這樣偉大的互聯(lián)網(wǎng)公司。不過,我認為最大的價值很有可能互聯(lián)網(wǎng)是為AI積累了二十多年的數(shù)據(jù),這實際上是AI時代的一段引導(dǎo)程序。通過這些海量的數(shù)據(jù),使得我們訓(xùn)練這種大規(guī)模的語言模型成為了可能。 第二,不管是芯片技術(shù)還是網(wǎng)絡(luò)技術(shù)的突破,讓我們有現(xiàn)在的計算中心規(guī)模,能夠一下子在一個單一集群里訓(xùn)練25次方次浮點數(shù)的運算,可能少一個數(shù)量級都不行。

25次方次就是GPT-4的規(guī)模。如果只是10的24次方,那今天有可能什么事情都不會發(fā)生。但當?shù)搅?0的25次方之后,GPT-4突然發(fā)生了涌現(xiàn)很多智能。以前是完全做不了的任務(wù),那現(xiàn)在可以做了。

還有另外一個很重要的變量,就是Transformer架構(gòu)的發(fā)明。如果回到六年前,這個世界上可能還沒有Transformer架構(gòu),以前的學(xué)者研究過傳統(tǒng)RNN網(wǎng)絡(luò)結(jié)構(gòu)的極限,有個論文標題就叫《ExpLoring the Limits of Language Modeling》,但是你會發(fā)現(xiàn)最終的結(jié)果就是一無所獲。 因為當模型變大之后,你并不能得到一個更好的模型,訓(xùn)練損失不會更低,也不能得到更好的泛化的結(jié)果。而只有Transformer架構(gòu)是能夠被scale(擴大規(guī)模)的。所以本質(zhì)上,我們是需要一個可被規(guī)?;木W(wǎng)絡(luò)架構(gòu),就是Transformer。 本質(zhì)上,正是因為這三個因素在這個時間點剛好匯聚起來,使得說AGI出現(xiàn)了一些苗頭,以及未來的繼續(xù)發(fā)展成為了可能。

并且,我們可以看到,規(guī)?;鋵嵤茿GI的核心——其實是架構(gòu)、算力、數(shù)據(jù)三個要素的規(guī)?;5俏覀儾还庵皇切枰?guī)?;切枰鎸嵉囊?guī)?;?/p>

這里會有很多的維度,舉個例子,假設(shè)我們今天訓(xùn)練了一個百萬億的模型參數(shù)的模型,但是如果只到這一步,那它可能就不是真實的規(guī)?;?。

我會從兩個例子來展開介紹,到底什么是真實的規(guī)?;?。 我們認為,Transformer是新時代的計算機。這跟老的計算機不一樣,老的計算機可能是你通過編碼方式實現(xiàn)一個確定性的需求,但在Transformer上,你可能是通過Prompt作為編程語言,用數(shù)據(jù)作為橋梁去嫁接你的產(chǎn)品和研發(fā)。

在這種新的計算范式下面,它會產(chǎn)生新的計算,會產(chǎn)生新的內(nèi)存。比如說參數(shù)數(shù)量可能就會決定計算復(fù)雜度,上下文的長度就會決定內(nèi)存大小。有了很大的內(nèi)存之后,你就可以去解鎖很復(fù)雜的計算鏈路,比如訓(xùn)練一個很復(fù)雜的Agent完成各種任務(wù),閱讀不同的文件,去綜合不同的分析,最后得到想要的結(jié)果。

同時,它也是降低幻覺非常好的手段。如果你平白無故的去問一個模型,那他可能會開始有Hallucination(幻覺)。但如果我們能夠把搜索的結(jié)果,或者很多個人文檔、公司文檔作為上下文的話,它就可以極大程度的降低幻覺,因為所有的信息都可以從文檔里面被提取和歸納。

現(xiàn)在很多大模型的開發(fā)者也面臨這樣的問題,你可能用了自己的專有數(shù)據(jù),我也調(diào)了一個模型,但如果你的基座模型升級了,你可能所有的這些微調(diào)都白費了。

所以,我們認為長文本是接下來會取代微調(diào)的一種定制化的方式。你可以把所有的指令數(shù)據(jù)、訓(xùn)練數(shù)據(jù)作為少量版本的prompt,作為模型的輸入。當你的模型發(fā)生升級的時候,你并不需要再重新用你的訓(xùn)練數(shù)據(jù)再微調(diào)一遍,而是僅僅需要把Prompt適配,完全不需要做任何的調(diào)整。這是一個非常強大的定制化工具,也是未來所有人能產(chǎn)生個性化的模型的基礎(chǔ)。

現(xiàn)在,有很多模型的上下文長度變得越來越長,但并不都是真實的規(guī)模化,里面有一些技術(shù)捷徑。

比如說,有些模型可能是個金魚模型,我可能是在一個很短的窗口上去訓(xùn)練,把它去泛化,比如說推到一個相對長的窗口,在泛化到很長的窗口的時候,他就可能會出現(xiàn)記憶損失,就像金魚一樣,可能是只有7秒鐘的記憶。

它也有可能是一個蜜蜂模型,通過檢索或者降采樣的方式,只關(guān)注局部,比如其中的某一小段的內(nèi)容。這樣你就沒有辦法對全局得到一個很好的理解。

他也有可能是一個蝌蚪模型,也就是模型非常小。就像你的計算機一樣,雖然你有一個非常大的內(nèi)存,但是你的計算不足,你的CPU是很弱的。這種情況下,其實你也沒有辦法得到一個非常好的結(jié)果。

所以我們要的是不是金魚模型,不是蜜蜂模型,也不是蝌蚪模型,這些都不是真實的規(guī)模化。真實的規(guī)模化應(yīng)該是獵豹、獅子、老虎,應(yīng)該是無損壓縮。

GPT-4 壓力測試結(jié)果

Kimi 壓力測試結(jié)果

這是一個非常經(jīng)典的關(guān)于長文本能力的測試:大海撈針。

什么意思呢?我會給模型非常多的文檔,我會在隨機在文檔里面去插入一句話。比如說北京最好的事情是什么,北京最吸引人的點是什么?你在文檔里面去插入這句話,然后他你這樣你就可以得到一個實驗,就是說你在不同的長度,在你不同的插入位置的情況,他的回答的準確率到底是什么樣。

左邊是GPT4的結(jié)果,這是在Twitter上非常火的一個測試。簡單的說,就是你這個圖里面紅點越少越好。紅點多就表示你在這種情況下回答可能是錯誤的,可以看到,上下文長度變長之后,它其實對文檔前半部分的理解,它是會出現(xiàn)非常多誤差的。

我們把一樣的實驗放在kimi chat里面。可以看到,除了左下角有一個紅點之外,其他所有地方都是綠的,也其他所有地方的回答都是準確的,這個也是得益于我們的無損壓縮技術(shù)。

我們認為這才是真實的規(guī)模化,而不是一個非真實的上下文長度規(guī)模化。

我們經(jīng)常會提起“摩爾定律”,摩爾定律最早指的是,每N年晶體管數(shù)量可能會翻一倍?,F(xiàn)在,AI時代也有不同的摩爾定律??赡苊縉個月,模型的參數(shù)數(shù)量翻一倍,那N個月后模型算力也要翻一倍,每N個月你的能實現(xiàn)可用的這個場景數(shù)量,它應(yīng)該翻一倍。

我們認為其實現(xiàn)在最關(guān)鍵的其實應(yīng)該是這個定律,這是通往AGI非常必要的路。它不應(yīng)該是一個線性的增長,它應(yīng)該是一個指數(shù)的增長。

它不應(yīng)該是蠻力的用傳統(tǒng)的AI方式實現(xiàn),比如以前傳統(tǒng)的AI系統(tǒng),大家會做的事情就是把這個系統(tǒng)拆解成很多個小問題,比如1萬個AI問題,每個AI問題是單獨去收集數(shù)據(jù)。但這個是不可規(guī)?;?,很難實現(xiàn)指數(shù)增長。如果你沒有辦法實現(xiàn)指數(shù)增長,你就沒有辦法實現(xiàn)AGI。

另外一個很重要的問題是,AI時代去探索產(chǎn)品PMF(Product Market Fit)的過程,會和互聯(lián)網(wǎng)時代、甚至更早前的軟件時代完全不同。

以前探索PMF的過程是什么?以前,你在手機上去破解密碼,假設(shè)現(xiàn)在是一個四位數(shù)的密碼,你會有一萬種不同的可能性。可能你有一個有神性的天才產(chǎn)品經(jīng)理,他跟你說,你這個密碼很有可能是1359。因為他非常天才,所以他一下就指出來說,這個密碼是正確的概率非常大。 但在AI native時代,這樣的規(guī)律可能完全不適用。我們并不是說不需要產(chǎn)品經(jīng)理,而是產(chǎn)品經(jīng)理做的事情會變成:他在這里面指出從1000-2000個可能性之間,這一千種可能性概率最大。但之后,我們會需要一個暴力機器,一下子把它全部試出來。

所以,我們并不是要一個一個一個場景去試,而是要將一批場景,一波一波的場景往模型輸入。GPT不可能說只能完成一件事情,它必然是很多事情同時涌現(xiàn)的。

那我們在AI時代應(yīng)該怎么去做PMF呢? 第一,很重要的還是要去利用模型的泛化能力?;氐轿覀兩厦嬲f用Kimi Chat篩簡歷的例子,其實在我們的產(chǎn)品上線之前,我們內(nèi)部是從來沒有做過測試,也沒有做過任何專門的優(yōu)化,它其實是模型涌現(xiàn)出來的一個能力。

當你的底層Instruction Following、多步推理、處理上下文,上下文一致性等底層能力得到提升的時候,它其實會帶來上層的很多新場景的爆發(fā)。 我想引用我非常喜歡的設(shè)計師柳宗理的一句話:不是依據(jù)設(shè)計來制造,而是通過制造完成設(shè)計。

我覺得這是AGI非?;蛘咦鯝I native非常重要的思想。你再也不是寫一個需求,讓這個程序員把這個需求用確定性的方式實現(xiàn)出來。而是可能會有多種不同的場景同時在涌現(xiàn),產(chǎn)品經(jīng)理做的事情不是說去種一棵樹,而是去畫出來一塊地,讓AGI機器能夠在這片地上把所有樹都種一遍。這才是可能真正AGI長期發(fā)展方向的、好的開發(fā)方式。

講到這兒,我們?nèi)绻倩仡櫼幌逻@個領(lǐng)域過去半年到一年發(fā)生的事情——有很多人在做大模型,我們也是其中之一。

但是你會發(fā)現(xiàn)做大模型的人可能分成兩種,一種是看風景,用AGI解鎖了很多可能性,然后里面會有很好的風景,我可以去做一些應(yīng)用,這波是看風景的人。

還有另外一波人,他其實是勇攀高峰,其實是爬樓梯,但不代表說我們不看風景,而是說在你看風景的同時,你可能要花更多的精力,花更多的時間去以周為始的思考:到底月球的背面是什么?

有一天你會發(fā)現(xiàn),當你爬到了100層樓的時候,那些在一兩層樓就開始看風景的人,其實有可能最后就被降維打擊了。所以,“爬樓梯”其實才是我們最終真正想做的事情。 最后,我們還非常相信的一點就是:AGI不可能是閉門造車的產(chǎn)物,它必然是跟所有用戶一起共創(chuàng)的過程。在這個過程中,才有可能形成數(shù)據(jù)飛輪,形成我剛剛說說的“場景的摩爾定律”。

我們也希望跟在座的所有人一起,能夠通過我們的Kimi chat產(chǎn)品,一起去探索AGI之路,非常感謝大家!

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
90后AI天才的大模型首戰(zhàn)
一次性搞懂什么是AIGC!(一篇文章22個基本概念)
學(xué)人工智能必知的英文單詞
GPT將死!Meta發(fā)布“類人”模型,能夠理解世界
一批信仰 AGI 的年輕人,填補了中國 AI 大模型創(chuàng)業(yè)公司的空白
AI掃盲指南!什么是大模型?什么prompt?什么是大模型參數(shù)?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 富顺县| 阳东县| 蒙城县| 洪雅县| 凯里市| 莒南县| 敖汉旗| 鄂托克前旗| 松江区| 喜德县| 黑河市| 丽江市| 大埔县| 洪江市| 昆山市| 名山县| 吉首市| 紫阳县| 临澧县| 武清区| 大理市| 丰镇市| 衡阳县| 兰州市| 桦川县| 伊春市| 湘乡市| 峡江县| 禄丰县| 南木林县| 枞阳县| 辉县市| 宁南县| 湘潭市| 蕉岭县| 昌乐县| 丰县| 饶阳县| 江都市| 海伦市| 肥乡县|