
智東西
作者 | 程茜
編輯 | 心緣
智東西11月14日消息,昨日晚間,英偉達在國際超算大會SC23上宣布推出新一代AI計算平臺NVIDIA HGX H200。
H200 GPU重點升級如下:
→ 跑70B Llama 2,推理速度比H100快90%;
→ 跑175B GPT-3,推理速度比H100快60%;
→ 首撘141GB HBM3e,是H100顯存容量的近1.8倍;帶寬4.8TB/s,是H100帶寬的1.4倍;
→ 2024年第二季度發貨。

H200完整參數表
需注意的是,雖然都是“200”,但與此前英偉達發布的GH200 Grace Hopper超級芯片不同,GH200是英偉達Grace CPU與H100 GPU的組合版,而H200是新一代GPU芯片,為大模型與生成式AI而設計,因此相比H100主要優化的是顯存和帶寬,算力則與H100基本持平。
一、內置全球最快內存,大模型推理成本大降
HGX H200支持NVIDIA NVLink和NVSwitch高速互連,可支持超過1750億參數規模模型的訓練和推理,相比于H100,H200的性能提升了60%到90%。英偉達高性能計算和超大規模數據中心業務副總裁Ian Buck將其描述為“世界領先的AI計算平臺”。

這也是首款內置全球最快內存HBM3e的GPU,英偉達的新聞稿寫道,GPT-3的推理表現中,H100的性能比A100提高了11倍,H200 Tensor Core GPU的性能比A100提高到了18倍。
Buck稱,英偉達將在未來幾個月內繼續增強H100和H200的性能,2024年發布的新一代旗艦AI芯片B100將繼續突破性能與效率的極限。

在生成式AI基準測試中,H200 Tensor Core GPU每秒在Llama2-13B大型語言模型上每秒快速通過1.2萬個tokens。

單張H200跑700億參數的Llama 2大語言模型,推理速度比H100快90%;8張H200跑1750億參數的GPT-3大語言模型,推理速度比8張100快60%。

在HBM3e的助攻下,NVIDIA H200能以每秒4.8TB的速度提供141GB內存,與NVIDIA A100相比,容量幾乎翻倍,且帶寬增加了2.4倍。
二、兼容H100,明年第二季度開始供貨
英偉達還展示了一個服務器平臺,可以通過NVIDIA NVLink互連連接四個NVIDIA GH200 Grace Hopper超級芯片,其具有四路和八路配置。
其中,四路配置在單個計算節點中配備了多達288個Arm Neoverse內核和16PetaFLOPS的AI性能,以及高達2.3TB的高速內存。

八路配置的HGX H200提供超過32PetaFLOPS的FP8深度學習計算和1.1TB聚合高帶寬內存,可在生成式AI和HPC應用中實現最高性能。
當與具有超快NVLink-C2C互連的NVIDIA Grace CPU配合使用時,H200還創建了帶有HBM3e的GH200 Grace Hopper超級芯片,這是可以服務于大規模HPC和AI應用的集成模塊。
這些服務器主板與HGX H100系統的硬件和軟件兼容。它還可用于英偉達8月份發布的采用HBM3e的新一代NVIDIA GH200 Grace Hopper超級芯片中。
基于此,H200可以部署在各種類型的數據中心中,包括本地、云、混合云和邊緣。包括華碩、戴爾科技、惠普等在內的英偉達全球生態系統合作伙伴服務器制造商也可以使用H200更新其現有系統。
H200將于2024年第二季度開始向全球系統制造商和云服務提供商供貨。
除了AI算力和云服務公司CoreWeave、亞馬遜無服務器計算服務Lambda和云平臺Vultr之外,AWS、谷歌云、微軟Azure和甲骨文云將從明年開始成為首批部署基于H200實例的云服務提供商。
三、全球TOP 500超算榜,基于英偉達技術的系統達379個
此外,基于10月英偉達發布的TensorRT-LLM開源庫,英偉達GH200超級芯片的速度是雙插槽x86 CPU系統的110倍,能效是x86 CPU + H100 GPU服務器的近2倍。

在全球TOP 500超算榜中,得益于由NVIDIA H100 Tensor Core GPU提供支持的新系統,英偉達在這些系統中提供了超過2.5ExaFLOPS的HPC性能,高于5月份排名中的1.6ExaFLOPS。
同時,新的全球TOP 500超算榜名單中包含了有史以來使用英偉達技術數量最多的系統為379個,而5月份的榜單中為372個,其中還包括了38臺超級計算機。
英偉達加速計算平臺還提供了強大的軟件工具支持,能使開發人員和企業構建和加速從AI到HPC的生產就緒型應用程序,其中包括用于語音、推薦系統和超大規模推理等工作負載的NVIDIA AI Enterprise軟件套件。
結語:圍繞大模型核心痛點,劍指加速計算需求
生成式AI催生的大量加速計算需求仍然在不斷增長,大模型開發和部署帶來的算力需求也成為企業的核心痛點,性能更強的AI芯片仍然是當下大模型企業競爭的重點之一。
如今,英偉達再次圍繞著生成式AI的開發和部署甩出了一系列硬件基礎設施和軟件工具,幫助企業突破大模型開發和部署的核心痛點,并且通過在數值、稀疏性、互聯、內存帶寬等方面的革新,不斷鞏固其在AI時代的霸主地位。