精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
重磅!OpenAI被“Open”!GPT-4可復制!
userphoto

2023.07.17 上海

關注


“OpenAI并沒有魔法,他們所構建的東西是可復制的。”

                                                 ——先問大模型技術團隊

就在今日,被人們吐槽“不夠open”的OpenAI,被業(yè)內大神扒了個底兒掉!

大神此次公開的信息包括GPT-4的架構、訓練和推理的基礎設施、參數量、訓練數據集、token數量、運維成本、以及使用的混合專家模型(Mixture of Experts,MoE)等非常具體的參數與細節(jié)。

在這些信息中,我們可以看到OpenAI在面對不同工程背后如何進行權衡,以及在巨型模型推理時,如何跨越其中最大的瓶頸。

而這些細節(jié)的公開,無疑是給了業(yè)界一個研究和學習OpenAI技術的機會。

01

  是誰在揭開GPT的秘密?

那么,這些重磅的信息是從何而來的呢?

爆料的來源是SemiAnalysis的兩位名叫Dylan Patel和Gerald Wong的撰稿人。他們在文章中詳細介紹了這些關于GPT-4的具體信息。

值得一提的是,身為Semi Analysis首席分析師的Dylan Patel,并不是第一次引發(fā)業(yè)界軒然大波。他此前還曾經參與了谷歌內部文件的泄漏事件。那份文件中提到,“我們沒有護城河,OpenAI也沒有”,引發(fā)了業(yè)界對于大公司競爭和AI安全的熱烈討論。

Semi Analysis首席分析師Dylan Patel

這次的泄露事件得到了DeepMind的首席執(zhí)行官Hassabis的確認,他在接受The Verge的采訪時,確認了這份由谷歌工程師泄露的文件的真實性。

這也證明了Dylan Patel具有一些特殊的信息獲取渠道,這使得我們有理由相信這次關于GPT-4的爆料同樣具有相當的真實性。

總的來說,這次的信息給了我們一次深入了解OpenAI最新技術的機會。我們期待看到這些信息將如何影響AI領域的發(fā)展和變革。

02

GPT-4的模型參數達1.8萬億

GPT-4,OpenAI的最新大規(guī)模語言模型,顯示出一系列引人注目的特性。首先,它的規(guī)模令人震驚,模型參數達到1.8萬億,分布在120層中,相比其前任GPT-3增長了十倍以上。

先前外界猜測的GPT-4參數量

在模型構建過程中,OpenAI采用了混合專家(MoE)模型以保持成本在合理范圍內。GPT-4使用了16個專家模型,每個專家模型的MLP大約有1110億個參數。

其路由算法簡潔高效,能將每個標記路由到專家模型的決策依據,并不復雜,有大約550億個共享參數用于注意力。值得注意的是,在執(zhí)行每次向前傳播推斷時,GPT-4只使用大約2,800億個參數,這相比純密集模型的1.8萬億參數更為經濟。

03

數據及訓練方式

在數據方面,GPT-4的訓練數據達到了13萬億個token,包括文本和代碼數據,以及來自ScaleAI和OpenAI內部的大量微調數據。在預訓練階段,token設為8,000,之后在微調階段將token增加到32,000。

訓練過程中,OpenAI使用了批處理的方式。批處理大小在早期逐步增大,最后達到了6,000萬,這對于GPU資源的利用極具效率。

04

并行處理技術與訓練成本

為了在所有的A100 GPU上實現并行,GPT-4使用了8路張量并行和15路管線并行,這都是并行處理技術的極限。這種并行策略可能涉及了ZeRo階段1和塊級FSDP技術。

訓練成本是評估模型效率的重要指標,OpenAI的GPT-4的訓練FLOPS大約2.15e25。模型在大約25000個A100上運行了90到100天,使用率大約為32%到36% 。由于大量的失敗需要從檢查點重新開始,使用率將變得極低。

如果按照每個A100每小時1美元來計算,訓練成本將是6300萬美元左右。

05

規(guī)模與性能的難題

盡管GPT-4在規(guī)模和性能上取得了顯著的突破,但其依然面臨著一些挑戰(zhàn)。

例如,專家模型在推理中非常難以處理,因為并非在每個token生成時都使用模型的每一部分。這意味著當其他部分被使用時,剩余部分可能處于休眠狀態(tài)。當為用戶提供服務時,這會嚴重影響利用率。

同時,由于更多的專家模型在許多任務上難以泛化,且更難以達到收斂,所以OpenAI選擇了較少的專家模型。

因為GPT-4需要更大的集群,所以它的推理成本是其前代產品175B參數Davinchi的3倍,實際上使用效率更低。

06

   GPT-4的視覺能力:

交叉注意力與微調

在視覺能力方面,GPT-4采用了與文本編碼器分開的視覺編碼器,具有交叉注意力。這種架構與Flamingo相似,增加了更多的參數,并進行了約2萬億個token的微調。

OpenAI希望從頭開始訓練視覺模型,但由于技術不夠成熟,因此決定先從文本開始,降低風險。

總結來說,GPT-4在規(guī)模、性能和復雜性方面都做出了重大的突破,但同時也帶來了更大的挑戰(zhàn)和更高的成本。這無疑將開啟人工智能發(fā)展的新篇章,我們有理由對此充滿期待。

(全文編譯請看今日清元宇宙二條)

07

  “先問”點評

清博先問大模型技術團隊表示,在這份報告前,黑客George Hotz就爆料過GPT-4是由8個MoE模型組成,這次相比之下更加具體詳細,也更具有指導和復現意義。

這份報告也是給了我們中國企業(yè)打了一劑強心針,OpenAI并沒有魔法,他們所構建的東西是可復制的。

在報告中最吸引我的內容是OpenAI在面臨大模型推理時遇到的問題和作出的抉擇。

眾所周知,大模型在推理時,延遲和推理成本是非常重要的權衡。我們總會希望能在延遲較低、吞吐量足夠的情況下,推理成本盡可能小,因此我們從這份報告中看到OpenAI的選擇,啟發(fā)我們團隊后續(xù)的相關工作。

值得一提的是,其實萬億級別參數的MoE模型,GPT-4并不是第一個。谷歌在2021年發(fā)布的Switch Transformers,就是價值1.6萬億的MoE模型。所以OpenAI利用MoE的做法,也是意料之中的。

對于大模型來說,最大的開銷不是訓練,而是之后長期的服務開銷:訓練是一次性的,而服務對算力的要求是無窮無盡的。

模型serving的FLOPS要低于訓練時的FLOPS,MoE就是一個很顯然的選擇,可以保證稀疏激活。

人類的大腦也有著類似的設計:功能分區(qū),稀疏激活。我們人去解決一個問題,也只會利用相關的知識,而不是把大腦中所有的知識都用上。

盡管MoE是一個簡單明顯的選擇,但還有很多工作值得我們去做,改進路由算法,降低通信和計算成本,提升訓練的穩(wěn)定性等等。

未來,這些工作也都將是我們先問大模型努力的方向。

參考信息:

1、https://mem.ai/p/weHErOim3P2FNmTEvlMX

2、https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

作者:先問大模型 西瓜 排版:駱偉玲
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
3.6萬億token、3400億參數,谷歌大模型PaLM 2細節(jié)遭曝光
僅480塊GPU搞出萬億參數大模型!★★★達摩院3個月打造,出手即商用
T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創(chuàng)業(yè)避坑指南
莆田版GPT-3開源:同等復現預訓練模型GPT Neo,可在Colab上完成微調
GPT
無需寫代碼能力,手搓最簡單BabyGPT模型:前特斯拉AI總監(jiān)新作
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 磴口县| 类乌齐县| 抚顺县| 龙海市| 黑龙江省| 巴彦县| 海南省| 武邑县| 康保县| 郸城县| 轮台县| 松原市| 长沙县| 孝义市| 霞浦县| 遂宁市| 柯坪县| 利辛县| 淮滨县| 雷波县| 台北县| 扶余县| 尚志市| 稷山县| 通化市| 浮梁县| 宜兴市| 高唐县| 郴州市| 双峰县| 双柏县| 乌拉特前旗| 喜德县| 德保县| 会泽县| 若尔盖县| 田东县| 深圳市| 广丰县| 舒兰市| 陈巴尔虎旗|