精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
GPT:Chat的計算合成與人機協(xié)同創(chuàng)新

近年來,人工智能領(lǐng)域出現(xiàn)了若干科技創(chuàng)新現(xiàn)象級產(chǎn)品,如人們耳熟能詳?shù)腁lphaGo、ChatGPT和GPT-4,這些科技創(chuàng)新現(xiàn)象級產(chǎn)品表現(xiàn)出了較強的內(nèi)容合成能力:AlphaGo根據(jù)當(dāng)前落子局勢,從已有落子學(xué)習(xí)中合成一個策略,以更好應(yīng)對對手落子;ChatGPT這一復(fù)雜的神經(jīng)網(wǎng)絡(luò)大模型,按照“共生則關(guān)聯(lián)”的原理,挖掘單詞和單詞因在句子篇章中共現(xiàn)而具有的關(guān)聯(lián)概率知識,實現(xiàn)了統(tǒng)計關(guān)聯(lián)下語言合成;GPT-4從圖像和文本匹配數(shù)據(jù)中挖掘視覺子塊與文本單詞之間的耦合關(guān)聯(lián),具備了以文生圖的能力。



上述技術(shù)推動人工智能由識人辯物和預(yù)測決策等向內(nèi)容合成躍升,即人工智能內(nèi)容合成(Artificial intelligence generated content, AIGC)。AIGC塑造了內(nèi)容生產(chǎn)的新范式,成為智能數(shù)字交往的有力手段,悄然發(fā)生一場文明范式的轉(zhuǎn)型,使得版權(quán)、工作、教育和信任等概念出現(xiàn)巨大調(diào)整,人類社會面臨著監(jiān)管難題和倫理困境。


01

內(nèi)容合成原理:共生則關(guān)聯(lián)

在自然語言中,若干單詞先后相連構(gòu)成了一個句子,如“中國南北飲食文化存在差異,豆花有南甜北咸之分。南方人一般喜歡吃甜豆花”。為了理解“南甜北咸”這個單詞,就要正確理解該單詞前后共同出現(xiàn)的單詞,即通過上下文學(xué)習(xí)(in-context learning)來理解單詞和句子所蘊含語義。

2017年,谷歌公司提出了Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),設(shè)計了自注意力(self-attention)機制來挖掘句子中單詞和單詞之間共生統(tǒng)計概率。自注意力機制可理解為每個單詞自己注意到與哪些單詞以多少概率共同在句子中一起出現(xiàn)。

ChatGPT和GPT-4在工程上創(chuàng)新性整合大數(shù)據(jù)、大模型和大算力,按照“共生則關(guān)聯(lián)”挖掘單詞和單詞或者視覺子塊與文本單詞之間的共生概率,輔以人類反饋信息,以機器智能通過統(tǒng)計關(guān)聯(lián)實現(xiàn)了語言合成和圖像合成。


ChatGPT的技術(shù)發(fā)展歷程

ChatGPT和GPT-4的出現(xiàn)體現(xiàn)了“數(shù)據(jù)是燃料、模型是引擎、算力是加速器”這一當(dāng)今人工智能發(fā)展特點:訓(xùn)練ChatGPT使用了45TB數(shù)據(jù)、近 1萬億個單詞(大概是1351萬本牛津詞典所包含單詞數(shù)量);集成了深度神經(jīng)網(wǎng)絡(luò)、自監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)和提示學(xué)習(xí)等多種算法;耗費了3640 PetaFLOPs per day巨大算力,即用每秒能運算一千萬億次算力對模型進(jìn)行訓(xùn)練,需要3640天完成;ChatGPT前身GPT-3模型參數(shù)高達(dá)1750億。如果將這個模型的參數(shù)全部打印在A4紙張上,一張一張疊加后,疊加高度將超過上海中心大廈632米高度。

在大數(shù)據(jù)、大模型和大算力的工程性結(jié)合下,ChatGPT涌現(xiàn)了統(tǒng)計關(guān)聯(lián)能力,可洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子、視覺子塊-文本單詞等之間的概率關(guān)聯(lián),進(jìn)而以概率形式進(jìn)行內(nèi)容合成,也有學(xué)者認(rèn)為其通過隨機概率將語言序列拼接在一起而稱其為隨機鸚鵡(stochastic parrot)學(xué)舌。


02

數(shù)據(jù)、知識和反饋合力催生能力

為了訓(xùn)練ChatGPT,OpenAI采用了完形填空、提示學(xué)習(xí)和人類反饋等三種主要訓(xùn)練模式。

在完形填空訓(xùn)練中,對于給定的海量句子數(shù)據(jù),從任意一個句子中“移除”一個單詞,然后讓模型根據(jù)剩下單詞所形成的上下文來預(yù)測最合適的“填空詞”。為了讓算法模型具備完成多種任務(wù)的能力,OpenAI提出了一種“提示學(xué)習(xí)(prompt learning)”方法。

在提示學(xué)習(xí)中,通過設(shè)計“提示案例”這一種知識模板不僅讓人工智能模型掌握“閑聊套路”,而且可將實現(xiàn)能力遷移,完成諸如情感分類和內(nèi)容推薦等其他任務(wù)。


比較有意思的,目前出現(xiàn)了一種編寫“提示案例”的工程師工作崗位,被一些媒體稱為人工智能私語者(AI whisperer),即通過提示案例來激活已有概率關(guān)聯(lián)的知識。

為了進(jìn)一步提高模型合成語言性能,ChatGPT還將交流中人類對模型所合成內(nèi)容的反饋作為一種監(jiān)督信息輸入給模型,對模型參數(shù)微調(diào),提高語言模型回答的真實性和流暢性。

同時要說明的是,微軟公司將所其收購開源及私有軟件項目托管平臺Github中數(shù)十億行源代碼開放出來作為訓(xùn)練數(shù)據(jù),使得ChatGPT形成了邏輯思維鏈,因此ChatGPT所合成語言中鮮見前后矛盾語句。

據(jù)估計,全球高質(zhì)量文本數(shù)據(jù)總存量約5萬億單詞/符號,涵蓋了世上所有書籍、科學(xué)論文、新聞文章、百科、公開代碼以及網(wǎng)絡(luò)上經(jīng)過篩選的達(dá)標(biāo)數(shù)據(jù)(如網(wǎng)頁、博客和社交媒體)??梢栽O(shè)想,如果一味依賴海量數(shù)據(jù)來訓(xùn)練人工智能模型,可能在不久將來,世界上所有有用數(shù)據(jù)將被耗盡。

據(jù)估計,人類大腦中80%以上知識是視覺知識,視覺知識能進(jìn)行形象思維模擬,為直覺推理和創(chuàng)意創(chuàng)造等提供基礎(chǔ)動力。因此,在人類文本語料燃料即將耗盡之際,如何利用指導(dǎo)和控制人類行為的跨媒體知識,建立數(shù)據(jù)知識雙輪驅(qū)動研究新范式,是目前面臨的巨大挑戰(zhàn)。

03

計算獨大、表示豐富、機理式微

ChatGPT的前身GPT-3包含1750億參數(shù),這些參數(shù)主要分布在如下三個部分:

1)意味深長的表示(約占模型參數(shù)1%左右):GPT-3中一共包含50275個單詞,每個單詞被表達(dá)為12288維詞向量。每個單詞具有如此高維度向量,就可從不同側(cè)面刻畫每個單詞與另外單詞之間的細(xì)微概率關(guān)聯(lián)。如浙江大學(xué)這一單詞被表示為12288維向量后,那么其在某一維度或若干維度上可刻畫浙江大學(xué)這一單詞與“求是精神”、“文軍長征”、“竺可楨”和“雙一流”等單詞之間的概率關(guān)聯(lián)。

2)極盡其能的關(guān)聯(lián)挖掘(約占模型參數(shù)30%左右):GPT-3設(shè)計了96種機制去挖掘捕獲某一單詞與哪些單詞存在概率統(tǒng)計關(guān)聯(lián)。GPT-3可以接受的上下文單詞長度為2048,而ChatGPT提示案例學(xué)習(xí)中可接受的上下文單詞關(guān)聯(lián)長度更是超過了8000。

3)細(xì)水長流般“思考”(約占模型參數(shù)60%左右):GPT-3使用被稱為前向傳播機制,步步為營而非一蹴而就來細(xì)化所挖掘得到的概率統(tǒng)計關(guān)聯(lián),好比激活神經(jīng)元之間鏈接權(quán)重,以強化單詞之間共生概率關(guān)聯(lián)。

ChatGPT的模型參數(shù)分布

目前對ChatGPT以千億級參數(shù)具備內(nèi)容合成這一能力的涌現(xiàn)機理尚無法清晰了解,因此ChatGPT被稱為現(xiàn)象級人工智能產(chǎn)品(phenomenological)。


諾貝爾物理學(xué)獎得主、著名凝聚態(tài)物理學(xué)家菲利普·安德森(Philip W. Anderson)于1972年在科學(xué)(Science)雜志發(fā)表了名為“多者異也(More is Different)”的論文,指出還原論假說從來都不意味著建構(gòu)論(constructionist)假說,這或許給我們少許啟示。

ChatGPT體現(xiàn)了“計算獨大、表示豐富和機理式微”的特點,這也反映了計算機所體現(xiàn)的“試錯(Trial &error)與暴力(brute force)”優(yōu)勢。OpenAI的首席科學(xué)家兼聯(lián)合創(chuàng)始人伊利亞·蘇茨科弗Ilya Sutskever)接受采訪時曾表示,相比ChatGPT,GPT-4能夠更精準(zhǔn)預(yù)測下一個單詞,因此GPT-4更加理解自然語言內(nèi)容。

顯然這一“種瓜得瓜”式的學(xué)習(xí)模式讓GPT-4給出一個新的預(yù)測就很困難了,比如“輸入光速不變假設(shè)以及當(dāng)時所有的物理知識,GPT-4顯然無法輸出相對論”。

04

人有人的作用

數(shù)學(xué)家和哲學(xué)家諾伯特·維納(Norbert Wiener)在1950年出版了一本極具洞察力和先見之明著作《人有人的用處:控制論與社會》,目的就是希望人類在技術(shù)世界的環(huán)繞中更加有尊嚴(yán)、更有人性,而不是相反。


機器是人類創(chuàng)造出來,人類的作用就是在人和機器共處的社會中,不斷用自己的知識來讓機器變得更加強化。


我們需要用進(jìn)化觀點去看待這個過程,最大限度地發(fā)展身上的種種可能性,而不是陷入“人機相斗”和“人機相害”的臆想中。

作為精確刻畫智能行為、且通過機器來實現(xiàn)智能行為的人類,是不可能被取代的。但是,如果你一味生活在昨天,那么就會被取代,這是歷史發(fā)展的規(guī)律。

不論怎樣,人類始終是人工智能高度、廣度和深度的總開關(guān)和決定者,也是人和人造物的協(xié)調(diào)者。


因此,我們一方面要警惕將人工智能等同于人類大腦的不切實際之舉和“人工智能奴役人類”杞人憂天之舉,另一方面也要善于利用人工智能這一人類幫手,在人機協(xié)同中創(chuàng)造更加美好未來。

愛因斯坦1936年10月在紀(jì)念美國高等教育300年的會議上發(fā)表了一篇名為《on education》的演講,認(rèn)為“教育首要目標(biāo)的永遠(yuǎn)應(yīng)該是獨立思考和判斷的總體能力的培養(yǎng),而不是獲取特定的知識”,面對ChatGPT所引發(fā)的新挑戰(zhàn),教育工作者更要加強對學(xué)術(shù)創(chuàng)造性解決問題的能力的培養(yǎng)。

浙江大學(xué)潘云鶴院士在筆者所著《走進(jìn)人工智能》的序言中寫道:未來將是人和人工智能共同進(jìn)化的時代,人和人造物之間將如影隨形、協(xié)作共進(jìn)、相得益彰。ChatGPT的出現(xiàn)推動了人工智能從預(yù)測決策到內(nèi)容合成。多樣性是人類文明的基本特征,也是社會發(fā)展的重要動力。

“怕什么真理無窮?進(jìn)一寸有一寸的歡喜”,人造物ChatGPT的出現(xiàn)將帶來人類社會諸多業(yè)務(wù)模式發(fā)生一次變革,但這也為另外更多的奇妙“多樣性”打開了一扇窗戶,因為“人有人的作用”。


作者介紹

吳飛:浙江大學(xué)上海高等研究院常務(wù)副院長、浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院人工智能研究所所長

一起學(xué)習(xí)

此次抽獎獎品為

吳飛教授親筆簽名的著作

《走進(jìn)人工智能》

開獎以后,中獎的10位幸運讀者,請在“啟真新論”后臺消息欄中留下自己的姓名和聯(lián)系方式,方便小編聯(lián)系~ 心動了嗎?一起來學(xué)習(xí),提升科學(xué)素養(yǎng)吧!

本文經(jīng)作者授權(quán)發(fā)布,轉(zhuǎn)載請注明來源。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
公開挑戰(zhàn)ChatGPT,發(fā)布開源模型
人類創(chuàng)造的數(shù)據(jù)太貴了!開發(fā)者悄悄使用AI合成數(shù)據(jù)訓(xùn)練模型
ChatGPT網(wǎng)絡(luò)安全風(fēng)險審視及治理
終于有人把ChatGPT的原理說清楚了
ChatGPT為啥這么強:萬字長文詳解 by WolframAlpha之父
8年了,Transformer注意力機制一直有Bug?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 镇赉县| 涞水县| 仁化县| 晋中市| 大城县| 常熟市| 陵川县| 望江县| 汶川县| 宁陕县| 广南县| 青神县| 宁陵县| 分宜县| 宿迁市| 大城县| 白玉县| 西昌市| 仙桃市| 青浦区| 台中市| 涿州市| 扶风县| 民县| 余姚市| 天门市| 将乐县| 济南市| 沾益县| 博白县| 鸡东县| 都江堰市| 临颍县| 延安市| 策勒县| 兴宁市| 中江县| 宝清县| 石门县| 密山市| 太白县|