編輯:LRS
年2020,OpenAI放出了具有1750億參數的預訓練模型GPT-3,橫掃文本生成領域,不僅能問答、翻譯、寫文章,還能做數學計算。
唯一的「美中不足」就是沒開源,代碼和模型看著眼饞,卻到不了嘴邊。
并且與微軟簽訂了「獨占協議」,公眾只能通過付費API與模型進行交互,完整的研究訪問授權仍然僅限于少數資源豐富的實驗室。
直到Meta AI發布了一篇論文,直接復現了一遍GPT-3,效果不輸原版,還全開源了出來,從代碼、模型到部署,服務一條龍,從此1750億參數全量GPT-3觸手可得。
論文鏈接:https://arxiv.org/abs/2205.01068
倉庫鏈接:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
Meta并且還給模型改了個名字OPT,也就是更open的預訓練Transformer語言模型,簡直是照著OpenAI的臉打呀。
OPT包含了多個尺寸的模型,對于顯卡數量囊中羞澀的研究組來說,可以選擇最適合自己的模型大小進行研究。
為了防止模型被濫用,Meta AI對于OPT-175B模型加了一個非商業許可,用戶需要填寫一個申請表,該模型的訪問權限將授予學術研究人員;隸屬于政府、民間社會和學術界組織的人員;以及世界各地的工業研究實驗室。
除了開源外,Meta這次重新訓練還很重視「環保」問題。
人工智能的模型訓練極其消耗電力,在開發OPT時,Meta表示充分考慮了能源效率,通過全分片數據并行(FSDP)和Nvidia的tensor并行抽象,使得OPT-175B的碳足跡僅為GPT-3的七分之一。
對于開源的原因,MetaAI的董事總經理Joelle Pineau表示,雖然GPT-3現在可以用API訪問,但模型的代碼和訓練參數對于整個研究社區來說顯然更重要,OPT-175B的發布也是業界首次開放如此大規模的AI模型,未來將會有更多論文基于可復現的結果發表出來。
不過也有網友指出,想看OpenAI笑話的可以停了,且不說GPT-3已經不是當下最大型的語言模型,OpenAI的GPT-4都快來了。
模型卡片
2018年,計算機科學家Margaret Mitchell提出「模型卡片」概念,通過對模型建立檔案,可以讓用戶了解模型開發的背景及適用條件,提高AI運行的透明度,Meta AI也給OPT建立了一張模型卡片。
論文鏈接:https://arxiv.org/pdf/1810.03993.pdf
發布日期:2022年5月3日發布OPT-175B
模型版本:1.0.0
模型類型:大型解碼Transformer語言模型
不適用的用例:OPT-175B并非發布給生產使用或真實世界部署,OPT-175B和其他大型語言模型一樣有多種缺陷,對于商業應用來說還為時過早。
評估數據的選擇:除了在公開語言模型標準下評估外,Meta AI還在Hate Speech Detection, CrowS-Pairs, StereoSet等任務上對模型的偏見進行評估。
限制:與其他大型語言模型一樣,訓練數據的缺乏多樣性會對模型的質量產生下游影響,OPT-175B在偏見和安全性方面受到限制。OPT-175B在多樣性和幻覺(hallucination)方面也可能存在質量問題。總的來說,OPT-175B對現代大型語言模型的問題并不免疫。通過發放非商業許可證,Meta希望以此提高溝通、透明度,并研究大型語言模型的問題,特別是在不符合商業利益的領域。
數據卡片
訓練數據在機器學習中有時比模型更關鍵,也會從根本上影響模型的行為、產生偏見等,所以記錄模型的數據來源、使用方法就顯得很重要。2018年,Timnit Gebru在arxiv上提出通過問答形式,為數據集進行建檔,最終論文于21年2012月發表。
論文鏈接:https://arxiv.org/abs/1803.09010
下面為一些相對關鍵的數據問題。
動機:OPT-175B模型的預訓練數據是由五個數據集(RoBERTa用到的三個數據集、Pile的子集以及Pushshift.io Reddit數據集)。創建這個數據庫的目的是在廣泛的文本語料庫上構建預訓練語言模型,重點是人工生成的文本。
數據集:
1. BookCorpus,由一萬本未發表書籍構成
2. CC-Stories,包含CommonCrawl的一個子集,過濾條件為Winograd模式的story-like風格
3. The Pile包括Pile-CC, OpenWebText2, USPTO, Project Gutenberg, OpenSubtitles, Wikipedia, DM Mathematics, HackerNew
4. Pushshiftio Reddit數據集
5. CCNews V2包含一個更新版本的CommonCrawl News數據集
數據集大小:包括1800億個Tokens,總計800GB的數據
樣例是否包含raw data:是
樣例是否包含label:否
數據切分:將200MB的預訓練數據劃分為驗證集
數據收集參與者:數據由機器全自動挖掘、過濾和采樣
數據預處理/清洗/標注流程:組件數據經過標準的清理和格式化實踐,包括刪除重復/非信息性文本,如「Chapter One」或「This ebook by Project Gutenberg」
用愛發電
進入預訓練時代以后,AI模型的研發轉為基于大公司開源的大規模語言模型。
但能否用上預訓練模型,主要取決于大公司是否想做「慈善」,畢竟大模型的訓練動輒就是成百上千個GPU,還得搜集海量的訓練數據,還得給算法工程師開工資,曾經有人估算,想訓練一次5300億參數量模型的PaLM,光租卡就至少得花900萬美元。
而本次OpenAI沒有開放GPT-3,而是和微軟站隊,也是引起了大量從業者的不滿,馬斯克直言OpenAI跟open越走越遠,網友也表示,還不如改名叫ClosedAI算了。
這種受限訪問限制了研究人員對大型語言模型的理解和研究,也阻礙了提升魯棒性、減輕模型偏見、毒性等已知問題的努力。
但如果都免費開源給社區,瞬間就會讓大量的競爭對手占領相同的高地,所以開源大模型的行為實屬「用愛發電」。
而本次OPT的發布,就屬于用愛發電來打破壟斷,斯坦福大學基礎模型研究中心主任Percy Liang對此評價為:開啟了語言模型研究的新機會。
總的來說,開源得越深入,就越能促進深層次問題的研究:
第一層:論文開放,證明一些想法的可行性,提供一些通用的思路;
第二層:API開放,研究人員能夠探測、評估模型的能力(如推理)和限制(如偏見)
第三層:模型權重開放,允許研究人員增量改進模型,開發出可解釋更好的技術、更有效的微調方法等;訓練數據的開放,允許研究人員更好地理解訓練數據在模型行為中的作用。
第四層:計算能力開放,允許研究人員嘗試新框架,新的訓練目標和過程,數據集消融,在不同領域內開發出全新的模型。這些嘗試極其消耗計算資源,但也會對模型的理解和提升具有潛在價值。
越高層次的開放,帶來的也是更多的風險和不確定性,所以不同的基礎模型開發者對于開放策略也有不同的理解。
不過就算Meta把OPT-175B發到手里了,還是得先看看自己有沒有16塊Nvidia V100顯卡。
參考資料:
https://github.com/facebookresearch/metaseq/tree/main/projects/OPT