主要工作:
1)DeepSeek此次發布了DeepSeek-R1-Zero和DeepSeek-R1模型。DeepSeek-R1-Zero模型僅依靠大規模強化學習訓練,沒有監督微調,便實現了推理能力的自主進化,自發涌現出“反思”、“多步驗證”等復雜推理行為,尤其是邏輯能力得到大幅飛躍。
2)但該模型存在可讀性差、語言混合等問題,為了解決這一問題,DeepSeek-R1模型通過冷啟動數據和迭代強化學習微調實現:通過數千條高質量長推理鏈數據對基礎模型微調,強制規范輸出,提高可讀性,同時在語言一致性上進行了訓練提升,并且融入了人類偏好獎勵模型,對模型進行了規范。
3)使用DeepSeek-R1作為教師模型生成800K數據,并對多個小型密集模型微調,小模型性能飛躍。以通義千問的15億參數量大模型為例,經過DeepSeek微調后,數學題上超過GPT4o-0513的水平。
核心創新點:
1)傳統大模型需要大量人工標注的監督數據進行訓練,但DeepSeek-R1-Zero首次驗證了無需任何微調數據,【僅通過強化學習即可實現推理能力的自主進化】。而且這是沒有獎勵思維鏈長度(通俗講,沒有引導推理模型用更多的時間去思考)的情況下實現的,即目標只是為了作對題目,大模型就會自發進行更長地思考,并且最后回答效果更好。
2)在這個過程中,【觀察到了反思、多步驗證能力的涌現】,出現問題后,模型會自動糾正早期錯誤。
#重要性:前兩條非常重要,一個是指出新道路,一個是證明這條道路有巨大的潛力,會進一步加速Agent應用。
3)盡管DeepSeek-R1-Zero足夠優秀,但他經常會出現中英文混雜、格式混亂的現象,工程上仍需優化。因此DeepSeek-R1模型通過與人類知識、經驗、規范相融合,實現了更好的輸出。
4)能力可以遷移:把R1蒸餾后可實現推理能力遷移,小模型也可以在特定任務中媲美大模型。
#重要性:小算力也可實現復雜功能,在邊緣場景,如自動駕駛、機器人等一系列實時應用提供更好的方案。
DeepSeek相關概念股:
?每日互動:幻方股東/技術負責人徐進為每日互動聯合創始人之一。
?浙江東方:通過旗下杭州東方嘉富基金參投DeepSeek天使輪。市場傳聞,注意風險。
?華金資本:珠海國資旗下投資平臺間接參與DeepSeekPre-A輪融資。市場傳聞,注意風險。
?浪潮信息:為DeepSeek北京亦莊智算中心提供AI服務器集群及英偉達H800+自研AIStation管理平臺。
?中科曙光:承建DeepSeek杭州訓練中心液冷系統。
?航錦科技:旗下超擎數智為DeepSeek提供光模塊和交換機,雙方深度合作。
?拓爾思:與DeepSeek聯合開發金融輿情大模型,已在中信證券等機構部署智能研報生成系統。
?陽光照明:曾購買幻方3億產品,且其電器出海業務外銷占比75%,有望與幻方在相關業務上協同發展。
?飛利信:是目前市場上采用MLA機制不多的上市公司,而DeepSeek-V2采用了創新的包括MLA在內的模型架構和訓練方法。
?卓創資訊:幻方作為大型私募,與卓創資訊在金融語料庫方面有合作。
?南威軟件:在人工智能方面,基于多頭注意力機制和增強特征金字塔方法,掌握了新型的生物認證技術,與DeepSeek的技術有一定關聯性。
?海天瑞聲:海天瑞聲以數據服務為刃,切入幻方的發展脈絡,幻方的蓬勃發展將牽引著海天瑞聲訂單量與業務收入節節攀升。
?科大訊飛:在教育領域接入了DeepSeek-Math模型并聯合推出了AI數學輔導應用“星火助學”。
?競業達:與百度、阿里、騰訊等國內科技巨頭合作,使用其AI大模型(如百度的文心大型),競業達與DeepSeek大模型的對接中。
?金山辦公:WPS智能寫作功能集成DeepSeek-Writer API,公文生成效率提升3倍,錯誤率下降90%。