精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
【新春第一課|第八講】:新一輪創新浪潮的機會與風險——主講人:張宏江

本期課程主講人:

張宏江 美國國家工程院外籍院士,北京智源人工智能研究院理事,微軟亞洲研究院原院長

以下為課程實錄,略經編輯整理:

最近AI大模型開始從學術界燒到了產業界,現在又燒到了大眾媒體,尤其是人工智能的生成模型的熱還沒有退去, ChatGPT的熱又一波接著一波。最近人工智能到底發生了什么大的變化?這背后的原因是什么?這些技術能夠用來做什么?又將為我們的生活和工作帶來什么?為中國的產業帶來什么?我在這里結合智源人工智能研究院的一些工作,和大家分享一下我的理解和看法,尤其是針對ChatGPT和AIGC大模型的發展和機遇。

過去這兩年,技術大模型已經成為人工智能快速發展的關鍵的技術各大企業和高校,各個研究機構在這個領域上都進行了布局和發力各個領域的模型層出不窮,那么大模型的研究和應用也將會逐步的成為人工智能發展的一個關鍵的方向,形成新一波的人工智能的浪潮。尤其是在應用這個領域,我相信又會形成一個非常長久持久的浪潮。

我們看一下在這里,從GPT-3在 2020 年 5 月份發布開始,智源的悟道在不到一年后開始發布,隨后中國的大模型的研究就開始風起云涌。智源在 2021 年的 6 月發布了當時的世界上最大的模型就是萬億模型, 1. 7 萬億模型。隨后這一年多以來,我們也看到有更多的模型出來,尤其是最近的DALL·E的模型和ChatGPT的模型,宣告了這個模型進入了一個新的高地。那么我們在這邊也可以看一下,各個研發機構發布的技術模型的數量,這個數量在持續地增加。另外一個就是模型的規模也越來越大,這個背后其實有它非常非常深遠的技術和學術的背景

我們先看一下,從學術角度,從基礎的技術的角度來看,預訓練的大模型的發展,回顧一下它的技術本身的積累。其實深度學習在 15 年前開始逐漸快速發展的時候,我們當時實際上是一個探索的階段,因為構建深度學習的主要方式就是監督學習,這中間需要大量的人工的標注的數據,而數據的生產的周期長,而且也非常昂貴。那么如何能夠通過有限的人工標注,在特定的任務上構建更有效的神經網絡,或者是自動地產生大量的數據,這其實是我們一直在研究的問題。

隨著深度學習的技術的發展,在大概七八年前出現了遷移學習技術,從過去學習的知識上不用再重新開始訓練,用新的數據加上去以后,就能夠將已經捕獲的知識遷移到一個新的目標或者一個新的應用上去。這兩塊都是我們今天大模型的非常重要的技術的基礎,也就是傳統的監督學習、遷移學習加上強化學習,實際上是我們今天看到的技術發展的核心的基礎。

另外一塊,人們往往忽略掉了,人們看到的大模型的快速的發展,人們可能意識到這學術的發展非常非常快,其實不光是學術發展非常快,剛才我談到大模型的深度學習,最重要的是它通過標注好的數據進行學習,在這塊其實過去的時間也有非常大的變化。另外兩塊很大的變化是一方面在算法上,另外一方面也是算力的要求上。

所以我們說深度學習實際上是三個因素,數據算法加算力。算法的進展我就不多講,但是數據的進展在過去的十幾年,是非常非常快速的,從一個最開始的人工的標注,到開放的數據集的分享,到數據自動標注和深層的研究,這些技術的進展到了最近的 5 年,把數據變成了一個云服務,建立起集數據標注、處理、存儲、管理于一體的這種今天的云數據中心。這塊實際上是對于人工智能的發展,有非常非常重要的推動作用。

另外一方面,就是我們從一開始推動這個AI 專用芯片,比如 Nvidia 的GPU,到后來推動大規模的分布式的計算環境,到今天我們已經有了大規模高性能的 AI 算力中心。這兩塊一個是數據,一個是算力,實際上這中間是不可缺少的。在這個過程中間,我們另外意識到一點,我們以前認為深度學習人工智能實際上是算法,是基礎的研究,是一些算法的突破。但今天我們知道到了大模型這個階段,事實上工程的能力在這塊是非常非常重要的,尤其是GPT-3,向我們展示了從算法到工程上的一系列的突破。

我們看一下GPT-3,因為 GPT-3 是大模型的最典型的代表。 GPT-3從算法上來看,從它的架構上來看,它是建立在Transformer 的基礎上的。 那么Transformer 是一個神經網絡的架構,它克服了傳統的神經網絡用淺層的預訓練網絡來捕捉單詞,而無法解決一詞多義的等問題的這樣的一些缺陷。它其實是優化了類人腦的這么一個學習過程。它關注于數據,你在學習的過程中間關注于重點而非全部,從而使得它的學習的效率非常高。隨著模型的規模的變大,基于Transformer 這種結構的預訓練的語言模型,這種隱含的豐富的語言知識,從而使得它能夠在眾多的下游的NLP 的任務中間有驚人的表現。

在之前Google的BERT就是建立在Transformer 基礎上的,而Transformer 本身也是 Google 團隊發明的。 OpenAI 的GPT這一類模型也都是建立在這個基礎上的。所以這里我們要記住一點,就是這個Transformer 實際上是這里面的核心所在,尤其是在表征,在學習語言知識這塊,Transformer是我們后來這三年看到的大模型的發展的最核心的一個深度學習的架構。

那么GPT-3的出現,它有幾個里程碑性的意義。

第一,它凸顯了Transformer 這樣的生成模型的學習的能力。

第二,它的規模是非常非常大,當時是1750億,雖然智源在一年以后推出的模型十倍于它的規模,但是GPT-3 是第一個達到了千億的大模型。這個模型在小樣本和零樣本的學習中間都表現出了突出的性能。

另外,GPT-3對 整個的設計的理念中間也提出了像Meta Learning 就是元學習的這種概念。剛才我也提到它在整個學習的過程中間關注重點而非全部,這樣它能非常有效地用利用它的數據。

它整個的核心的學習的過程,你可以想象到,它像人腦一樣,學習一些以前最早的深度學習,像人腦一樣學習一些已經標注的數據。而今天我們的GPT-3這樣的模型已經具備類人腦的學習的這種過程,但是這個數據的要求也非常非常大。GPT-3它的整個訓練用的是大概 700 多個Gigabyte的數據,整個訓練過程中間大致花了 1200 多萬美金。

所以我們知道,回過頭來再看我剛才提到的大模型的發展,其實不光是算法上的進步,在數據在算力上的需求,也非常巨大。有了大模型,有了Transformer ,有了GPT-3這一類的模型,它一個核心的優勢是我們可以用這種模型再進行一些微調,就可以用來做一個新的任務。這一點是以之前的模型所不具備的。

我們看一下GPT-3它在語言能力上的這種突破,它無論是在最早的英文的 Glue Benchmark,還是在我們后來的寫作,它都有了非常非常好的突破。因為這種大模型里面隱含的大量的知識。這些知識支持模型進行一些推理層面的任務,并且得到了非常非常好的結果。

我們看一下,比如它會寫論文,我們寫了一篇中文的關于個性化搜索算法的未來發展趨勢的論文。你發現它其實寫得相當相當好。這中間它其實背后有一些知識,它已經有了,除了大量數據之外,我們還會給它一些知識,比如說 1801 年的美國的總統是誰,比如長頸鹿長了幾只眼睛,青蛙有幾條腿,這些我們都會給它,它從中間學會以后它就會記得住,以后會用在未來的場景里面。

比如另外一個它非常讓人吃驚的就是,在中文的文言文的理解上也非常讓人驚嘆。我其實在讀這段話的時候,我其實是文言文我是讀不懂的,你可以看出來是這一段話我被告知是來自于《孟子》,是北京市小升初的一個題目,GPT-3 能夠非常好地理解它。

說完 GPT-3,ChatGPT簡直就是讓我們對于人機對話有了一個完全新的理解。它實際上是在為對話而優化的,在GPT-3基礎上是優化的一個語言大模型。它在對話,在寫故事,寫代碼,參甚至參加 SAT 考試,都比GPT-3 有了非常長足的進步。我們可以看到它寫代碼,寫故事,參加SAT的考試。

咱們注意看一下,它是之前并沒有做過SAT考試的題,它是練習了 10 次以后,它能達到這樣的水平,所以是相當相當了不起的。SAT是美國考大學的相當于高考題,它做了 10 次以后,它居然能夠拿到這樣的分數。數學的滿分是 800 分,它已經達到 600 分了。寫作也是 800 分,它已經達了 520 分,所以相當相當了不起。所以Elon Musk驚呼ChatGPT是好得嚇人。他甚至預測危險的,強大的AI離我們不遠。我們撇開Elon Musk一貫的一驚一乍的作風,ChatGPT確實是在對話上達到了一個新的高度,完全可以以假亂真,至少是一個記憶力和學習能力超強的、超級的鸚鵡。

它為什么能夠有這樣的能力呢?我們知道在GPT-3之后,在大模型,尤其在針對于語言的大模型。其實 OpenAI在這基礎上又做了兩個方向的研究。一個方向是叫做WebGPT,就是搭建基于文字的網頁瀏覽環境,教GPT-3上網查詢。這個時候,我自己查詢來的新的資料生成結果,同時生成引用的來源,所以它知道它的一些來源從哪來的。它相當于GPT-3大幅度地提高了生成內容的信息量和事實性。

另外一個叫InstructGPT,它是用基于用戶反饋的強化學習的方法,叫做RLHF。它實際上是它跟用戶對話,然后用戶會糾正它。用戶對答案不滿意的時候,它會進行學習。從而經過這種學習,能夠將語言模型的輸出,它自己的認知和用戶的意圖非常好地相關起來。這是InstructGPT的核心的所在。那么ChatGPT恰恰是建在InstructGPT的基礎上。 我們反過來看一下,剛才我提到Transformer實際上是里程碑。

在之前我們都是深度學習的,包括Convolutional neural Network就是CNN,和Regression Network這是 RNN。這是深度學習的最早的一些框架,在四年多以前的 Transformer出現以后,我們才出現了GPT。所以還是回到核心。其實還是Transformer的出現,使得我們今天在深度學習的網絡架構上有了新的突破。

ChatGPT,剛才我們看它又是作文,又是考試,又是能寫程序。它核心的特點在于它有持續對話的能力,它能記住歷史的信息和人的反饋,而且它能夠保持對話的一致性,容許用戶提供后續的更正。你回頭更正以后,它能夠持續再跟你對話。但是它又有一些非常好的判斷力,它能夠拒絕不適當的請求。也挑戰不正確的前提。如果你跟它說的一些話,前提不正確,它會意識到,而且會挑戰你。還有就是它做到了知之為知之,不知為不知,是知也,就是你問它的一些問題,它無法回答的時候,它告訴你對不起,這個問題我不了解,我現在對這個問題不了解,所以我沒法回答你的問題,所以它也承認。如果當你給它指出以后,它也會承認錯誤,它會下一步進一步進行改進。

大家如果是有時間去用一下ChatGPT,這些你都會慢慢體會出來。所以它核心的核心的能力,是它通過持續的迭代,大幅度地提高了對于用戶的意圖的理解,和它結果的準確性。再反射回去。其實這都是InstructGPT的特點,也是Transformer所帶來的能力。

同時它也支持多種任務,因為它最早的是用來對話的。在設計上實際是個語言模型,語言對話模型。但是同樣它可以用來做藝術創作。它可以改寫續寫故事,也可以創作短句,寫作文,寫作食譜。同樣可以做技術的創作比如編碼。它可以還可以做Debug 類似解釋代碼。還可以做一些IOS的APP。同樣它可以用來做辦公學習。它可以寫郵件,寫總結報告,寫技術博客。同時它還會有邏輯推理和數學推理的能力,比如我剛才我們提到的SAT的考試,所以雖然它叫ChatGPT。實際上它的學習能力,它的理解能力,它的創作能力都遠遠不止于僅僅是對話。

當然它也有它的局限性,可能產生不正確的信息,也可能產生一些有害的指令或者偏見的內容,我覺得其實是很正常。另外一點也很正常,因為它的訓練的數據大部分是 2021 年以前的,所以過去六個月實際上發生的事情,它基本上了解很有限,這是ChatGPT。

另外一點,在ChatGPT之前已經熱起來的。就是生成模型,尤其是由文字到圖像的生成模型。我說一段話,你幫我產生一種圖像,而且要按我說的風格來產生圖像,或者是我給某個人的風格,或者按某一個畫家的風格來產生圖像。

這個技術其實是從一年多以前,也是OpenAI ,DALL·E1.0開始,它的核心是如何學到文字和圖像之間的這種匹配關系。自從DALL·E出現以后,又有一系列的模型出現。幾個月以前才出現的,叫Stable Diffusion,是目前最好的技術。我們的智源研究院在這個基礎上做了一些改善,做了一個AltDiffusion,尤其是針對中文,針對多語種,效果會比Stable Diffusion更好。

我們看一下它的原理是什么,我不想多講。今天無論是Stable Diffusion,還是其它的一些由文字生成圖像的模型,基本的它的原理都從這開始,通過圖片的離散的編碼,將圖片的Token 和文字的Token 作為Transformer的 Decoder 進行輸入,在大量的文圖對上。我現在想強調的就是對,一定是有文字和圖像的對,進行訓練,從而形成的模型。一開始最早的我們可以看到,比如牛油果形狀的扶手椅,會產生這么一個。你注意它的描述還是描述得相當清晰,那么一開始的DALL·E所產生的圖像還是相當相對來說比較簡單。

在此基礎上,它的Stable Diffusion就把它的能力提高了一大截。DALL·E的一開始的這個模型,它還是用的與GPT相同的框架的生成模型。我順便說一下,我相信大家都知道DALL·E是什么人,他是西班牙的上一個世紀的一個非常有名的畫家。

我這兒就是用智源的多語言生成模型。來一起說一下Stable Diffusion的能力,和智源的最近的一些工作。Stable Diffusion在出現之后,風靡了整個的一個圈子。它實際上代表了當前的字生圖的最新的算法。它使用和改進了CLIP技術,也就是Contrastive Language-Image Pretraining這么一種模式,實際上是基于一種對比學習的多模態預訓練的這種模型。在諸多的文生圖模型中間,它的性能脫穎而出。在它算法上進行了一個改進。比如用AltCLIP代表的代替代了之前的Stable Diffusion里面的文本塔,使得模型可以支持多種語言。

它有一個核心的想法就是,因為英文里面高質量的圖文對數據量比較豐富,所以它訓出來的效果很好。而其它的語言上,高質量的圖文對的資源相對的匱乏。所以我們利用一個已經訓練好的英文模型,加上語言對齊,這樣可以訓練出一個更好的跨多語種的,能力比較強的,尤其多語種語言對齊的能力比較強的文生圖的模型。所謂的語言對齊能力,很重要的就是你中文和英文怎么對齊,阿拉伯文和中文怎么對齊,那么這實際上不是靠人來做,而是靠機器來做。這個本身來說是一個很重要的技術。

我不太想花太多時間在這個原理上,但我們看一下,比如我們對它進行了一些改善,所以它對于中文的理解就會更好。而且畫風的話,我們也把中文的國畫的畫風引進來了。

同樣,它也可以支持其他的九種語言。除了中文之外,還有日語、法語、韓語、西班牙語、俄語、意大利語、阿拉伯語。這中間要支持這種這些語言,不光是有這些語調,很重要的是它也在模型里面進行了一些改善。當然這塊也有一些很有意思的現象,對于不同語言、同樣內容的輸入,模型的輸入會有很大的差異。在其實中間也反映出了文化的差異。我們的模型要能夠適應于這一點,這本身也是一個很好的技術問題。

我這樣給大家看一下北京智源研究院所做的東西,我們這是一個開源的文生圖的這么一個系統,叫做 Flag Studio。你注意看它的一個界面,你可以選擇繪畫的風格,你也可以選擇藝術家的風格,根據某個藝術家來定義你的畫風。你比如像選擇是虛幻引擎你畫出來的這些虛幻的照片,但是你還是用文字來描述你想要什么。

比如它也有另外一個功能,你可以用一個文字來描述,比如一籃子蘋果,它給你生成一個蘋果。同樣你看到蘋果不錯,但你想把蘋果改成比如說梨,你描述一下它能幫你改。我們可以看一下演示,先生成一筐蘋果,你寫的一籃子蘋果,你把蘋果抹掉,最后把這個改成,比如改成一籃子梨,幾秒鐘之后就可以改成一籃子梨,風格跟之前的一籃子蘋果一模一樣。

這是這個模型所具有的功能。它不光是可以描述你讓它生成什么樣圖像,而且生成完以后,你可以把圖像拿來再進行一些修改,然后產生新的圖像。另外你可以把語言的描述和一個照片結合在一起,而產生一個新的照片。

比如是我要你產生一個帥哥對吧,放了一個我的照片,產生這么一個照片。同樣你還可以換一幅照片,你可以發現它的風格就不太一樣。所以不光是用文字來產生圖片,而且用文字加圖片產生新的圖片,這是這個模型所能夠做的,這也是現代的生成模型的一個很大的進步。

再給大家看一下。不光是你可以按文字的描述以圖生成圖,另外你還可以比如給幾幅照片,給幾幅照片,它總是能夠產生一些不同風格的同樣的人物。可以看一下但凡是你在一個單位,你就知道下屬最開心的事情就是在背后拿老板開涮。所以他們做實驗先拿我的照片來做實驗。他們做了一個開源的系統,做了一系列的各種風格的我。左邊我們是我的六幅圖像,不同時期的六幅照片。右邊是他們根據不同風格的要求產生的圖像。

比如這個是戰士的風格,這是Matrix 的風格,當然你還可以有別的風格。當然我這兒挑的都是看上去比較年輕氣帥的,那些看上去更像我,但形象老態龍鐘得多的,我就沒在這顯示了。

我在前面很快地介紹了一下大模型的發展和尤其是技術的發展,和它們的今天它們所具備的一些能力。我想下面我會花幾分鐘時間來談一下這些大模型對于產業的影響在哪里。大模型實際上代表了一個新的技術范式,也就是各自都研發專用的小模型,到煉大模型的這么一個轉變,就是研發超大規模的通用的智能模型,這么一個轉變。

這個轉變其實是相當有意義,通過比較先進的算法架構,盡量地整合盡可能多的數據,匯集大量的算力,集約化地訓練大模型,這樣可以供大量的用戶使用。所以大家注意看到,從某種意義上,它是從小農經濟到大規模生產這么一個變化。所以這個范式是一個很重要的范式的變化。它的意義就像當初電網的變革性這么一個意義,就是以前你建一個工廠,你第一件要做的事情是自己要先買一臺發電機,買一臺進行發電,供自己用電。

今天你要做AI的應用,可能你不需要再做自己的模型了,你可能就可以用已有的大模型,大模型也許就會以一種服務的方式提供給所有可能的用戶。這樣很可能改變信息產業的格局,改變以前作坊式的 AI 的開發的模式,會把我們 AI 的應用帶入到繼互聯網、繼云計算之后的大規模的智能云的這么一個階段。 這里一個很重要的它的優勢在哪?為什么我說它是技術與產業的雙重優勢。一個很重要點在于大模型,你能夠通過微調就能夠把大模型很好的能力,能夠很有效地轉移到各種不同的應用場景中間,而不再需要自己重新從零開始做模型。所以這樣大大地降低了開發的成本,從而使得它的應用會變得更加迅速,也更加有效。

最近 IDC 的有一篇報告說,超大模型將會是快速發展和快速引爆市場的一個機會型的技術,這點我其實完全同意。我覺得大模型實際上是人工智能這一波浪潮的,經過了十幾年發展之后的一個非常非常重要的拐點。下面我會結合一下我自己的體會,跟大家分享一下它對產業影響的一些看法。

今天我們看從應用場景來看,文本生成或者是圖文生成的模型,會很快用到各種各樣的應用中間。今天我們已經看到我剛才給大家演示的圖生文,文生圖的幾個場景。其實大家可以想象,它可以用來做一系列的應用,更不用ChatGPT的寫作的能力,它的問答的能力,所以我相信,就是這些大模型技術的本身的不斷的成熟,會帶來新的創業的機會,包括更好的對話機器人,更好的機器翻譯,更好的創作平臺。

另外還有一方面,這種大模型它會帶來一些 AI 基礎設施的創業的可能性,包括垂直性的訓練,包括大模型的運營管理訓練。我們知道在美國有一家公司已經發展得非常快,叫Hugging Face,它就是專門做大模型的訓練和推廣開源的,尤其是一些開源的推廣。

在應用這方面,其實中國發展的速度也很快。雖然目前的發展狀況是國外的頭部機構引領的技術和商業應用,國內整體來說可能會落后兩年。從應用角度來說,落后兩年其實我不是特別擔心,因為中國的落地能力非常非常強。比較悲催的實際上是技術研究的這種方面, Open AI 在過去的三年是獨領了風騷。無論從它的一開始GPT 1、 GPT 2、GPT 3,尤其 GPT 3之后,它的DALL·E,它的ChatGPT。實際上從研究的角度來說,它搭好了框架,它占了第一的位置。其他的人。雖然這兩年很多人做了很多模型,但從學術角度來說,其實我們都是在給它補漏,也就是在給它打工。這是從學術角度,其實是很悲催的。這其實是呼喚中國的學術的原創性,學術的創新的能力。

但是從應用的角度來說,我今天看到所有的應用,文字生成,圖像生成,音頻生成,視頻生成,虛擬人,元宇宙等各個樣子的應用場景。只要國外有的公司,中國都有比它更多的公司。而且我相信中國的落地能力,中國的應用場景一定會比它們走得更快。

我想在此之外,在我們的今天說的ChatGPT,還有生成模型之外,其實大模型還有更多的帶來質變的潛力。尤其是我們今天看到人工智能包括大模型,在生命科學、在材料科學,在能源科學和環境健康等各個方面,都可以利用大模型來生成,來驅動新的研究發現。尤其是在人工智能制藥,在材料的設計等等也有非常非常好的前景,而且已經開始落地。

好。我今天講到這,我總結一下。我們認為大模型實際上是 AI 的第三波浪潮的一個新的拐點這第三次浪潮以深度學習,以神經網絡為代表的浪潮的大概 15 年前開始。

其實在過去的幾年,這一波浪潮已經碰到了一些技術的瓶頸和商業化的難題,使得我們 AI 企業的商業化非常不順,高估值的泡沫逐漸破裂,我們也看到一些上市公司。一些技術找不到核心的應用,或者是在核心應用上也無法進行突破,從而使得它的 AI 技術的賦能和增值都有限。這種狀況會隨著大模型的發展和普及。

尤其是通過大模型加微調的這種新的技術開發范式,將能夠使得人工智能能力更好地,也更有效地應用到各種場景里面去,而不需要每家都自己開發自己的模型,從而大大地降低了開發成本。所以,大模型是一個發展快速,引爆市場的機會的這么一個技術將會帶來一波新的創業的熱潮。無論是我們今天已經看到的應用,還是我們未來會看到的應用,都將會有非常大的潛力。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
ChatGPT,人類認知力延伸的競賽
人工智能的80年進化編年史:從想象到現實
華泰 | 計算機: ChatGPT深度拆解
對話前OpenAI科學家:愛、滅亡和人工智能
一文搞懂ChatGPT相關概念和區別:GPT、大模型、AIGC、LLM、Transformer、羊駝、LangChain…..
會士專欄丨焦李成院士:從ChatGPT到GPT-4看下一代人工智能的挑戰與機遇
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 澄城县| 卓尼县| 攀枝花市| 仁寿县| 象州县| 江孜县| 阿拉善右旗| 湘潭市| 昌乐县| 涟源市| 中方县| 肇东市| 扎兰屯市| 淮滨县| 七台河市| 高阳县| 延长县| 兴城市| 策勒县| 如皋市| 越西县| 北安市| 西峡县| 昌吉市| 晋江市| 凤山市| 邵阳县| 印江| 阿荣旗| 沐川县| 崇义县| 葵青区| 凤庆县| 乌审旗| 恩平市| 乡城县| 女性| 长治市| 南康市| 威海市| 六枝特区|