電話會議的主要內容:
DeepSeek的創新來自于多個模型優化,包括專家混合(Mixture of Experts)、模型架構(如多頭潛在注意力)、FP8的使用等。DeepSeek R1似乎不是一個獨立的基礎模型,而是可能建立在其他開源模型(如Lambda)的開發基礎上,隨后在專門的數據集上進行訓練,包括其他大型語言模型(LLM)的輸出。
DeepSeek的訓練成本約為600萬美元并不能完全反映真實情況,因為這個成本沒有考慮其他間接費用、開發其他基礎模型的成本等。似乎MoE模型已經被訓練并優化以應對一些關鍵任務,如編程和數學,這使得它在這些任務上接近甚至超過OpenAI的性能。
這并不代表范式的轉變,而更像是LLM模型、算法和技術的持續創新。如果這些效率被廣泛實現,將導致推理模型成本大幅下降,從而加速Agentic AI的發展。目前,專家認為,Agentic AI可能在2025年仍然處于炒作階段,實際部署可能會推遲到2026年,原因在于企業對于授權和信任的需求。專家對AI模型未來的演進持樂觀態度,認為我們仍處于AI發展的初期階段,類似于互聯網普及周期的1996年,而非1999年。
前沿模型的開發影響尚不明確。他一直認為,LLM模型可能會迅速商品化,特別是在蓬勃發展的開源生態系統中。同時,他認為大型云服務提供商(CSPs)將繼續追求前沿模型,作為區別化競爭的手段,并開辟生成式AI(如視頻、現實世界AI、物理AI等)新的領域。
AI資本支出和能源使用預算可能會保持強勁,但如果R1的效率在所有新模型中得以實現,最終可能會對這些方面進行重新思考。然而,計算需求可能依然會非常強勁,因為便宜的推理過程將推動更多AI的普及。專家認為,500美元的推理成本可能會繼續下降,從而進一步推動AI的普及和應用。
專家認為,對于中國的限制措施大多是徒勞的,且可能會使中國的更多AI發展對外界保持隱蔽。專家認為,更多的開放合作和信息共享有利于整體AI生態系統的發展,并能避免潛在的陷阱。紀要私享圈