馬斯克確實以其高效率和大膽的行動著稱,最近他旗下的AI初創企業xAI宣布了一項引人注目的舉措:開源了一個名為Grok-1[1]的混合專家模型。
這個模型擁有3140億個參數,是目前參數量最大的開源大型語言模型之一,而允許商用、可修改和分發,對各種自研大模型是一個很大的利好!這一行為不僅展示了馬斯克對開放源代碼和共享技術的一貫支持,也表明了他希望推動AI領域快速發展的決心截至目前,Grok-1已經在 GitHub 上斬獲獲 28k 顆 Star。
讓我們先看下在Github的下載地址上,它的開源聲明都說了什么:
Grok-1模型擁有高達314億個參數,采用了混合專家(MoE)層結構。MoE層的實現,在效率上存在局限,但這種結構設計選擇是刻意為之,主要目的是為了簡化模型驗證流程,避免自定義內核的需求。Grok-1 的模型細節包括如下:
Grok-1遵循Apache 2.0許可證,賦予用戶以下權利:
看到這,有網友開始好奇 314B 參數的 Grok-1 到底需要怎樣的配置才能運行。對此有人給出答案:可能需要一臺擁有 628 GB GPU 內存的機器(每個參數 2 字節)。這么算下來,8xH100(每個 80GB)就可以了。
因此基本上個人是沒辦法用的,這個模型開源就是為了便于各種企業使用的,同時模型還提供了權重下載。
Grok-1的開源對中小型企業在特定領域微調模型是一大利好。通過下載Grok進行微調,可以為基于該模型的各種有趣應用鋪平道路。
與之前開源的大型模型相比,Grok-1的參數規模更大。根據理論,模型的參數量越大,其潛在智能水平也應該更高。正如OpenAI已經驗證的那樣,巨大的參數量可能帶來意想不到的結果。
就像Stable Diffusion的開源對國內各種AI繪畫工具軟件產生了影響一樣,Grok-1的開源可能會在各種垂直領域應用中產生啟發作用,特別是在國內應用方面可能會迎來一波爆發。
知名機器學習研究者、《Python 機器學習》暢銷書作者 Sebastian Raschka 評價道:「Grok-1 比其他通常帶有使用限制的開放權重模型更加開源,但是它的開源程度不如 Pythia、Bloom 和 OLMo,后者附帶訓練代碼和可復現的數據集?!?/p>
DeepMind 研究工程師 Aleksa Gordié 則預測,Grok-1 的能力應該比 LLaMA-2 要強,但目前尚不清楚有多少數據受到了污染。另外,二者的參數量也不是一個量級。
Grok-1是由xAI公司開發的人工智能模型,擁有高達314億個參數。該模型采用了一種稱為混合專家(MoE)的技術。用人類團隊的比喻來說,這就像是一個團隊中有多位專家共同合作,每位專家都在自己擅長的領域發揮作用。
Grok-1的訓練是從頭開始的,沒有專門針對任何特定任務進行優化或調整。整個研發過程歷時四個月,期間經歷了多次迭代。使用了JAX和Rust兩種編程語言,這兩者共同構建了一個強大的訓練基礎設施。為了訓練Grok-1,xAI公司投入了大量資源,動用了上千塊GPU,并花費了數月時間。在訓練過程中,還特別關注提高模型的容錯能力。
先看看ChatGPT如何回復馬斯克的嘲諷吧:
Grok-1: https://github.com/xai-org/grok-1.git