AIGC算力更行業內的動向,現在曝光了。
新款服務器還沒發布便已爆單;
云計算廠商不單求N卡,同樣關注國產廠商;
相比預訓練而言,推理需求如今更加被關注、熱議。
在量子位智庫最新舉辦的AIGC算力沙龍上,算力領域數月來備受關注的趨勢發展、行業挑戰及最新動向,都有了更加明確的解讀。
來自國產芯片廠商、服務器廠商、云廠商以及加速方案明星玩家,分別從各自角度出發帶來分享,由此構成對AIGC算力產業更加全面的認知。
他們分別是昆侖芯、天數智芯、聯想集團、首都在線和潞晨科技。
作為算力領域不同層玩家,在最新趨勢下他們有哪些切身感受?對未來進程又有哪些思考和看法?
量子位在不改變嘉賓原意的基礎上,對分享內容及圓桌對話進行了編輯整理。希望能夠給你帶來更多的啟發與思考。
本次沙龍邀請的嘉賓分別是:
王志鵬,昆侖芯互聯網行業總經理
郭為,天數智芯副總裁
黃山,聯想集團ISG服務器產品總監
朱湛峰,首都在線產品中心總經理
李永彬,潞晨科技生態負責人
國產芯片廠商昆侖芯最新分享了對大模型推理方面的關注。
目前行業內已經達成了一種共識,市場對于推理的需求正在快速增長。隨著大模型生態的持續發展,大模型的效果不斷提升,同時推理成本也在逐步下降,這些因素都將加速大模型的商業化應用。隨之而來的便是對模型推理的海量需求。
昆侖芯互聯網行業總經理王志鵬表示:
當百億、千億規模參數的模型需要部署推理時,推理技術面臨分布式化的挑戰。具體來說,需要把一個大模型拆分到單臺機器多張加速卡上并行存放、并行計算。
這些技術之前在訓練場景應用很廣泛,比如pipeline并行。但是推理有自身特殊需求,比如很多對話類任務對推理時延要求很高。Tensor并行會比較適合在線推理,而pipeline并行有助于提升吞吐,在一些離線的推理場景中也有用。
大模型推理引入了對通信的需求,多卡之間在每一層計算完成后都有一層通信。這種情況下怎么適應推理場景的優化?針對非常多高頻次、小數據量的推理場景,需要重點去優化時延,而不是提升帶寬利用率?
所以當下面臨的一個核心問題是:如何在單機8卡上達到大模型推理的最優性能。在真實業務場景落地中,昆侖芯采用INT8、Continuous Batching等關鍵技術,為業務帶來了數倍的性能提升。
國產GPU廠商天數智芯,更加關注芯片底層面臨的挑戰。
天數智芯副總裁郭為表示,主要挑戰來自Chiplet D2D的IP成熟度、3D封裝技術、工藝三方面。
我們很希望有一家成熟的D2D IP供我們直接使用,但是國內還存在標準不統一的問題。
3D封裝技術涉及到堆疊,也是挑戰。
而且Chiplet不是萬能的,不可能通過14nm的Chiplet來“干翻”5nm、3nm的技術,所以從根本來講還是一個工藝問題。
那么從GPU廠商角度來看,大模型將會駛向何處?
郭為給出了4個方向:
通用人工智能通過Few-Shot Learning方式快速在垂直
模型更大、更大數據量(探索規模效應的天花板)
多模態(NLP&圖像&語音)
對易用、通用、可配置算力的需求
聯想集團ISG服務器產品總監黃山透露的一個小消息,讓人更加直觀感受到當下算力行業的火熱:
我們8月18日準備推出的新一代8NVLink GPU服務器,還沒發布訂單已經爆了。
實際上,對于千億級大模型訓練,8NVLink GPU服務器是一個最好的選擇。如果進入到訓推一體階段,聯想給出的推薦為8PCle服務器。
如上是關于行業當下的需求,未來AI服務器架構發展會呈現怎樣的趨勢?
聯想認為,其一是獨立的“GPU Box”,通過PCle Switch與服務器節點互聯;其二是圍繞CPU和GPU芯粒互聯的設計。
與此同時,在算力需求暴增的現狀下,關于綠色低碳、AI基礎設施能效和散熱方面也需要予以重視。
潞晨科技是一家從誕生起,就面向大模降本增效的初創公司。
潞晨科技生態負責人李永彬表示,近一兩年來算力增長需求非常快,對于GPU算力來說,GPU容量的增長速度沒有這么快,中間形成了GAP。
而且AI大模型的計算模式也發生了改變,不會像之前Deep Learning時代,針對某一個任務直接去適應模型,它會基于基礎模型再微調的方式,來做領域/行業內大模型。
對于大模型來說,計算量非常大,預訓練需要1-2個月時間也很常見,因此對于速度優化的要求非常高。
所以潞晨打造了Colossal-AI系統,在過去兩年來提出了多套訓練/推理加速方案,并積極擁抱開源。
比如最近,Colossal-AI發布類LLaMA基礎大模型預訓練方案,訓練速度較傳統方案提升38%,顯著降低成本,不限制商業使用,開箱即用僅需4步。
首都在線作為一家資深云廠商,趨勢下的直接感受是,行業對于云計算架構的需求不再是一個傳統的池化、資源池,而是要求整個架構變得非常靈活。
首都在線產品中心總經理朱湛峰表示:
GPU業務不同場景對于服務的配置需求是非常零散的,怎么在同一個架構上滿足這些需求?這是一個非常復雜的過程,我們現在能做到一臺服務器、通過一個后臺的開關就可以把它切換到不同的形態,以不同方式交付給客戶,這個和傳統云行業很不一樣。
同時在一些技術細節上也會變得不同。
GPU業務大部分都是高并發的,服務器之間要求低延遲、高帶寬、高并發存儲,這都是一個很大的挑戰。
量子位:目前各家在生成式AI上的布局如何?和趨勢發生前相比有哪些變化?
潞晨科技李永彬:因為我們本身就是做大模型相關的,現在ChatGPT等大模型趨勢非常符合潞晨的發展路徑。前兩年我們剛開始做這個方向的時候,可能大家對大模型還有疑慮,這么高的成本能做什么?那么現在來看,很幸運我們提前布局踩在了風口上。我們最近的動態也會一直更新,并且在Colossal-AI GitHub上同步。
天數智芯郭為:通俗來講我們就是鏟子的,做通用的鏟子,接下來還會繼續在這個方向上前進,努力幫大家更好挖金子。
聯想黃山:今天我們首先解決的最基本問題是,讓基礎設施如何能提供最高效的算力。同時聯想也會去做大模型,以及算力服務、云服務等。
昆侖芯王志鵬:我們因為和場景、業務走得很近,所以更聚焦在生成式AI領域,因此較早進行了布局。
首都在線朱湛峰:我們比較明確是不會去設計自己的大模型的,我們將以云上算力給大模型企業提供強有力的支持。
量子位:生成式AI之后的發展趨勢將會如何?是基于原有技術不斷加碼,還是從更底層創新?
首都在線朱湛峰:從云的角度來看,現在這個趨勢走向還沒有完全展現出來。結合我們自身的情況微觀來看一下,我們AI事業部從技術架構到業務角度完全是跟原來的公有云完全獨立開的,因為幾乎沒法以同一種方法運作,所以我們看到說AIGC對計算的基礎架構都可能有非常大的挑戰。
我相信隨著AIGC的演進,從機柜到帶寬、到服務器、到存儲將會對整個云架構或服務架構的方式產生巨大改變,這也是需要我們和客戶公司來一起適應的。
昆侖芯王志鵬:我們會從這樣幾個角度來看:首先一定是持續的迭代過程,不只是靠一代芯片就能達到理想狀態,而且這個過程是跟算法應用場景一起迭代。當前最主流的AI芯片已經到達算力邊界,然后算法就會基于AI芯片繼續迭代,同時為下一代硬件指明方向。
第二點是看接下來要做什么。一個變化思路是,突破對一個單卡的局限,上升到服務器整機以及大集群系統層面,在這個層次上有一些整體的解決方案或者優化思路。
聯想黃山:我們這邊什么都做,在AI算力需求爆發的時代,我們看到從最底層的新品到服務器,再到上面中間件、算子、算法庫、模型庫、應用、實際場景,做API服務。包括變成一個方案級服務,訂閱、包租,整個采購和之前自動計算、科學計算都有巨大區別。
因為AI數據類型不一樣,所以對算力基礎設施的要求也不一樣。這是整個一套完整的技術棧,不能分開去看,我們雖然說自己什么都做,但不是什么都賣。我們希望能夠推動AI使用、適合它的全棧方案智能化。
天數智芯郭為:我們是一家芯片廠商,從芯片廠商的角度來看,這件事還是回到實際上我們芯片是為算法服務,然后對于算法它是一個怎樣的發展趨勢?
實話實說,因為我們不是算法公司所以不是非常專業。比如今年的情況,恨不得Transformer要統一天下,那么明年還是不是這個情況?這個事情我相信誰都給不出一個明確的答案,對于芯片公司來講我們該怎么辦?
從我的認知來看,仍然還是回到通用這件事。我們仍然會堅持提供一個通用的架構、通用的算力。這件事說一千道一萬,產品到底好不好,還是能不能實際用、實際用的人用得舒服,才能給客戶提供最大價值。我們一直認為堅持在通用這條道路上,能夠給客戶、給算法工程師提供最大價值。
潞晨科技李永彬:潞晨這邊是做軟件的,所以對AI浪潮變化也是深有體會。像剛剛提到2、3年前,GPT-3剛出來以后,大模型賽道只有少數人參與。
現在ChatGPT帶起來這么大的風潮,很多企業都想要參與進來。可能前幾年大家都還在搞CPU大數據,市場雖然需要GPU但是還沒有這么高,所以現在來看市場變化還是很大的。生成式AI也帶了許多新的技術挑戰,正是潞晨和Colossal-AI所擅長和努力的方向。
量子位:各位現在所在企業的算力基礎設施布局如何?算力中心在行業內最終會扮演一個怎樣的角色?
潞晨科技李永彬:算力中心現在都很重要,尤其像現在高端算力出現了一些監管措施,那對于大模型浪潮來說,算力中心要比其他時刻更加重要,對算力提供者也提出了更高要求,比如許多云廠商,當然包括做軟件基礎設施的角色也會參與進來。
天數智芯郭為:重要性毋庸置疑,這個屬于新基建。除了商業方面的算力建設,各個地方政府也都在積極建設算力中心,包括一線、省會、二三線城市等。在算力中心建設這部分我們也在積極參與。最重要回到一句話,算力中心建起來之后誰來用?這個問題我們也在和各個合作伙伴、地方政府探討。
聯想黃山:我也認為算力中心是很重要的。有一份行業報告顯示,它對比中國、美國、日本的算力投資。在2020年,對算力投資最大是中國——7000億,其次是美國,最后是日本。
這些投資在以前叫做算力中心、超算中心,后來發展到今天叫智算中心。為什么叫智算?因為有一個東西叫智慧算力,它在2022年的規模已經超過了其他算力,并且在未來5年內會以57%的速度增長,其他算力的增長速度大概為10-30%。
所以這意味著什么?什么叫智慧算力?剛剛我也提到從底層來看,它從芯片設計上都會有不一樣的設計。聯想是世界HPC TOP500強里top最多的公司,持續已經5年了。但是HPC有很多自己的能力,能夠為儲存中心提供整套的IPC方案。
但是今天我們遇到新的難題,因為新的智算中心給我們提出新要求。這需要全部重新梳理,從驅動、中間件層再到上面軟件。所以這也是我認為在這個時代下要去幫客戶解決的痛點。至于怎么把智慧算力應用?首要是要把基礎層都做明白。
昆侖芯王志鵬:生成式AI,我們看到它的應用場景是非常廣闊的,它其實改變了AI和人的交互方式,因此會成為流量的新入口,未來會應用于手機、云端、邊緣、端側等等。這種潛力是無限的。
在這種趨勢下,變化不光會發生在智算中心。作為芯片公司,我認為思路有很多,其實我們看到的是一個個獨立的負載(workload),對workload理解得越深,在數據處理、解決方案等上游整個鏈條上就能做得更多。整體來說,能夠提供給客戶或智算中心的面向產品的方案也會更完善。從這個角度來說,布局的重要性就不必多說了。
量子位:AIGC趨勢推動算力廠商有哪些范式、模式的創新?能助推我們在不同層級做快速迭代?
首都在線朱湛峰:我認為很多變革都是一點一點發生,現在能看到一個實例是,原來很多合作伙伴會把他的業務交給一兩家廠商來做。但是現在它會變成一個標準調度來使用多個云。所以對于云廠商來說,產品彈性、標準化有提升到了一個新高度,不僅是讓客戶適應,而是自己要適應行業。這是我們看到的一個明顯變化。
昆侖芯王志鵬:對于芯片公司來說,我覺得很多創新是圍繞市場的核心需求。大家對于芯片最關注的還是核心性能,但是除此之外,我們如果能夠和上下層一些應用場景結合,就能有一些更完整的端到端方案讓客戶快速感知。比如硬件層面的一體機,結合對算法加應用的整體端到端方案。
聯想黃山:我覺得離范式改變還有點遠。因為我剛才的觀點是說是很多東西都要從底層到向上都要做,所以我們覺得我們建立于建立范式還是有差距的。我覺得但是這里面剛才我也是從模型提供的這種方式,這個我們在不光是金融和醫療,我們其實本身上也都有一些實踐,這些東西即取即用,然后教這個我覺得是一個 AI 應用落地的一個范式,一個范例,這個也可能也不是因為 AIGC 導致 ,AI 應用落地本身就需要這樣的。
天數智芯郭為:從芯片廠家的角度來講,我覺得跟上來講的話還是得產品,就還是說這個就是我們本身芯片本身的能力。那比如說在對于芯片來講,那比如說在工藝受限的情況下,我們是不是可以有一些別的方式能夠提高帶芯片的算力?
同時在單芯片算力不可能無限增大,那對于集群來講,會設計到芯片之間的互聯,以及集群之間的互聯,這會不會影響一些新互聯技術的出現?帶來更快互聯速度?
當然這又是另外一件事。芯片之間互聯速度太快也會有其他影響,但是這個不重要,更重要的是說還是回到產品本身——怎么做對產品有更好把握?做更快迭代?這樣才能適應AIGC時代以及發展需求。
潞晨科技李永彬:軟件層面看到很多新變化。比如大模型的開源。在Deep Learning時代,因為成本不高所以大家上手做的門檻不高。但是大模型只有頭部廠商、大集團、明星初創有實力去考慮預訓練,有一些廠商愿意開源供市場使用,但也有廠商選擇不開源。目前我們也在做一些開源方面的工作。
量子位:追問一下潞晨,對于OpenAI的開源/閉源問題怎么看?
潞晨科技李永彬:我個人覺得開源能有更長的發展和更多成長。OpenAI它當然有一些自身商業方面的考慮,想要保持競爭力。但是如Meta開源LLaMA后,全世界都有參與進來共建生態。當然包括像硬件廠商,英偉達的強大不僅在于它的硬件,也包括它開放的生態,大家愿意留在這個生態里不斷共建。
量子位:最近英偉達和HuggingFace上達成了最新合作,國內也會看到類似的合作形式嗎?
潞晨科技李永彬:生態方面,國內很多模型也會開源分享,以及國內也有像model as service這樣的嘗試。
天數智芯郭為:開源顯然是優于閉源的。對于生態來講,回到天數智芯的角度來講,我們堅定用戶主流生態。對于OpenAI,最近它的財報披露還在虧錢。在技術層面已經強到如此了但還是在虧錢,所以我認為還是要擁抱開源。
當然,開源和閉源不是絕對對立的。我們理解有些閉源是從公司商業模式出發。從天數的立場來說,我們積極擁抱開源,同時也愿意同合作伙伴探討實際的商業落地模式。
聯想黃山:僅代表個人觀點,因為我們不做這方面。我認為OpenAI這樣的頭部廠商,市場機會很多。另外對于開源,對于我們聯想來說是非常喜歡開源的,這能給我們自己做模型時提供更多經驗。
昆侖芯王志鵬:我認為開源大模型生態會與商用大模型長期共存,因為兩者面向的是互補的市場,市場需求也不盡相同。做一個類比,我們現在回頭來看CPU市場,以Windows為代表的閉源商用市場,和以Linux為代表的開源軟件市場,現在也是處于長期共存的狀態。
首都在線朱湛峰:我們自己的定位是不做大模型。但是從生態來講,我們非常積極主動去和上下級廠商溝通,促進國內生態發展。
量子位:最近算力租賃這個概念很火,但這不是個新概念了。所以AIGC時代下,算力租賃服務有發生哪些變化?長期來看算力租賃會一直由產業去推動?還是發展成為一種公共服務?
首都在線朱湛峰:對于算力租賃,我們可以把它定義為算力的云化服務。我認為云化服務是未來,我想象中AI的未來里,所有終端都是云終端,從AI的計算到媒體傳輸、視頻流傳輸都是在云端進行,這個過程中必定會涉及到不同業務在做,所以算力的需求會變成彈性需求,彈性對于租賃來說是一個非常大的優勢。
第二點,它能夠幫助成本分擔。任何一個公司想要從底層開始構建一套完整的技術棧都是非常燒錢的,租賃方式也大大降低了一個公司進入到這一行業的成本。所以我認為它必然是一個未來趨勢。
昆侖芯王志鵬:作為芯片公司,從AI算力提供商的角度來看,對我們自身的要求是提供'歸一化的算力'。希望可以降低云廠商對我們的接入成本,同時希望做到單位算力價格更低。
聯想黃山:大模型在做預訓練的時候,可能需要擁有自己的集群,在當前這個階段它可能不太可以獨立完成。我也非常認同二位所說的趨勢,真正有一天做完預訓練、需要真正產生社會價值、商業價值的時候,推理需求會擴大。這樣估算,我認為推理市場需求能占到60%,由此我認為算力租賃應該是一個最好的方式,所以我認為算力租賃這條路還是很有前景的。
天數智芯郭為:我認為顯然不需要每一家公司都做一個自己的示范路徑。當然如果非要這樣做,從我們芯片公司的角度來說非常歡迎。可是客觀事實下這明顯不可能。對于算力主體來講,我們要考慮的是什么樣的算力才能讓客戶愿意買單?我們認為是通用算力,所以我覺得算力租賃確實是一個和大模型算力出口相伴的趨勢。
量子位:作為底層算力提供商,對于未來上層需求發展有哪些判斷?基于這些判斷,是否在業務發展優先級上做了相應布局?
潞晨科技李永彬:目前的市場需求可能訓練方面多一些,后續推理需求會更多一些。這個趨勢和目前我們的優化重點也是相符合的。Colossal-AI現在針對不同市場需求做了相應的工作,對于資源少的情況,我們提供一些方案使其能夠在更少資源下去完成任務;對于資源充足情況,在相同硬件的計算效率上做更大提升。總體上起到對AI大模型相關需求降本增效的效果。
天數智芯郭為:目前大模型的趨勢是十億、百億、千億規模,但是后續會想萬億、十萬億級發展嗎?可能也不至于。回到主流廠商供不應求的話題,這對于國產廠商來說,后續發展需要找好著力點。這個著力點就是產品本身好不好用,這樣后續才能討論是不是能跟上腳步的問題。
聯想黃山:市場目前給了我們非常清晰的反饋,今年年初客戶對GPU需求都是成千上萬塊,因為很多人要去給大模型做預訓練。但是從7月開始,各行各業的客戶來和我們提的需求是幾十臺服務器,來做訓推一體。這些客戶已經想好了,在預訓練大模型成熟的時候加入進來,我們要在這個時候和它的項目進行匹配。
那么現在行業推進的下一步是什么呢?也許明年就要變成真正企業專屬應用的一套東西,所以我在這方面就是布局一整套完整的技術棧,從訓到推,各有各的特點,各自能適應相應的客戶需求。
昆侖芯王志鵬:我的想法差不多。有一類客戶自身的定位是提供基礎大模型,他們對算力是不計成本的,但這類玩家很少。現在也出現了大量企業,它需要算成本賬、評估效果和業務收益,隨著算法開源、模型效果逐漸變好,推理各方面成本下降,這一類客戶也正在成為我們重點關注的對象。
首都在線朱湛峰:我從另外一個角度來談一下。目前英偉達在行業里的占比非常非常高,我們在業務布局的時候會將很大一部分精力放在國產芯片、國產GPU上,我們還是希望這個市場里不只有一家廠商能提供算力,也有更多國產廠商能夠為我們自己的模型、業務提供算力,這是我們一直在做的事。
量子位智庫主題活動,圍繞AI和前沿科技相關的最新進展和熱門話題,邀請一線行業專家,系統性分享認知。
— 完 —
「AIGC 垂直領域社群」
招募中!