精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
2025,DeepSeek崛起!英偉達一夜市值蒸發近6000億美元

來源:機器之心

昨天,英偉達市值大幅下跌,損失接近 6000 億美元,創下美國歷史上公司單日市值最大跌幅。此次股價暴跌幅度達 17%,最終收盤價為 118.58 美元。
上周,英偉達才剛剛超越蘋果,成為全球市值最高的上市公司。此次股價暴跌直接導致納斯達克指數下滑了 3.1%。

另一家依賴 AI 獲得巨額市值增長的美國大型芯片制造商 Broadcom,周一跌幅則達到 17%,市值蒸發了 2000 億美元。

此次拋售的原因,主要是源于中國人工智能實驗室 DeepSeek 帶來的全球 AI 競爭壓力飆增的擔憂。去年 12 月,DeepSeek 發布了一個免費的開源大語言模型 ——DeepSeek-V3,訓練成本僅僅為 558 萬美元,并表示該模型只用了兩個月時間完成,使用的還是英偉達的低能力版芯片 H800。
反觀 Alphabet、Meta 和亞馬遜等科技巨頭,為訓練和運行 AI 模型,花費了數十億美元用于購買英偉達最前沿基礎設備。
將開源進行到底,Janus-Pro 問世
在美股一片慘嗥的同時,DeepSeek 再接再厲繼續開源,發布了視覺模型 Janus-Pro。該模型是去年 10 月發布的 Janus 的升級版,在質量上實現了飛躍式提升。與此同時,DeepSeek 還發布了一款多模態理解模型 JanusFlow-1.3B。
Janus-Pro
Janus Pro 是基于之前的 Janus 開發的高級版。整體而言,Janus Pro 實現了三大改進:訓練策略優化訓練數據擴擴展到了更大模型。有了這些改進, Janus Pro 在多模態理解和文生圖指令遵從能力都收獲了顯著提升 —— 在多個基準上超越了 DALL-E 3 與 Stable Diffusion,同時文生圖的穩定性也得到了加強。此次,DeepSeek 一次性發布了 7B 和 1B 兩個版本。
剛剛注冊 ?? 帳號的 DeepSeek 創始人梁文峰(目前還無法驗證該帳號的真實性)也宣布了此消息。
已經有不少網友嘗試過該模型了,比如生成一個看起來像網球的小鳥,絨毛形態十分逼真。
或者由「美麗的漢字」五個字符組成的圖畫:
這個同時兼具視覺理解和生成的模型著實再一次震驚了中外 AI 社區,畢竟這個表現如此卓越的模型僅有 7B 大小!

  • 論文標題:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
  • 論文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
  • 7B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-7B
  • 1B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-1B
  • Hugging Face 試用鏈接:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
DeepSeek 如今正將其影響力從語言處理,擴展到計算機視覺領域。據隨模型發布的技術論文介紹,Janus Pro 7B 在效率和多功能性方面經過精心設計,能夠在一系列視覺任務中表現出色:從生成逼真的圖像到執行復雜的視覺推理任務。
Janus-Pro 與其前身 Janus 在文本生成圖像方面的對比
DeepSeek 還展示了 Janus Pro 7B 的性能指標。(左)Janus Pro 7B 在比其他多模態大模型參數更少的情況下,依然實現了較高的性能。(右)該模型在文本生成圖像基準測試中也取得了最高的準確率,超越了競爭對手(包括 DALL?E 3 和 SD3-Medium)。
Janus-Pro 的多模態理解與視覺生成結果
DeepSeek 研究團隊在他們的論文中表示:「Janus Pro 是一個高效的視覺模型系列,旨在實現性能與計算成本之間的平衡,能夠在廣泛的視覺任務中實現最先進的性能。」
以下為 Janus Pro 在多模態任務中的優良表現:
圖片描述
文生圖
1. Janus Pro 架構
對效率的強調是 Janus Pro 7B 區別于其他大規模、高資源需求 AI 模型的關鍵優勢。與一些最大且最耗資源的 AI 模型不同,Janus Pro 7B 通過其 70 億參數設計,能夠提供高水平的性能,同時避免了對龐大計算資源的需求。
Janus-Pro 的架構與 Janus 相同。如下圖所示,整體架構的核心設計原則是將多模態理解與生成的視覺編碼解耦。研究者應用獨立的編碼方法將原始輸入轉換為特征,這些特征隨后由一個統一的自回歸 Transformer 處理。
Janus-Pro 架構
2. 訓練策略優化
Janus 的前一個版本采用了三階段訓練過程:
  • 階段 I:重點訓練適配器和圖像頭。
  • 階段 II:進行統一預訓練。在此過程中,除理解編碼器和生成編碼器外,所有組件的參數都會被更新。
  • 階段 III:進行監督微調。在階段 II 的基礎上,進一步解鎖理解編碼器的參數。

然而,這種訓練策略存在一些問題。通過進一步的實驗,DeepSeek 研究團隊發現這一策略并不最優,并導致了顯著的計算效率低下。
為解決此問題,他們在原有基礎上進行了兩項修改:
在階段 I 延長訓練時間:研究者增加了階段 I 的訓練步數,以確保在 ImageNet 數據集上得到充分的訓練。他們經過研究發現,即使固定了大語言模型(LLM)的參數,該模型仍能有效地建模像素間的依賴關系,并根據類別名稱生成合理的圖像。
在階段 II 進行重點訓練:在階段 II 中,研究者去除了 ImageNet 數據,直接使用標準的文本生成圖像數據來訓練模型,從而使模型能夠基于詳細的描述生成圖像。這種重新設計的方法使得階段 II 能夠更高效地利用文本生成圖像的數據,并顯著提高了訓練效率和整體性能。
3. 數據擴展
研究團隊在 Janus 的訓練數據上進行了擴展,涵蓋了多模態理解和視覺生成兩個方面:
  • 多模態理解:對于階段 II 的預訓練數據,參考 DeepSeek-VL2 ,并增加了大約 9000 萬條樣本。樣本包括圖像標注數據集,以及表格、圖表和文檔理解的數據。
  • 視覺生成:前一個版本的 Janus 使用的真實世界數據質量較差,且包含大量噪聲,導致文本生成圖像時不穩定,生成的圖像質量較差。在 Janus-Pro 中,研究者加入了大約 7200 萬條合成的美學數據樣本,在統一預訓練階段,真實數據和合成數據的比例為 1:1。

4. 模型擴展
前一個版本的 Janus 通過使用 1.5B 的大語言模型(LLM)驗證了視覺編碼解耦的有效性。在 Janus-Pro 中,研究團隊將模型擴展至 7B,并在其中詳細列出了 1.5B 和 7B LLM 的超參數(見下表)。
他們觀察到,當擴大 LLM 的規模時,無論是在多模態理解還是視覺生成任務中,損失函數的收斂速度相比于較小的模型都會有顯著的提升。
這個發現進一步驗證了該方法的強大可擴展性。
Janus-Pro 架構配置
Janus-Pro 訓練的詳細超參數
JanusFlow-1.3B
在發布 Janus Pro 的同時,DeepSeek 還發布了一個多模態理解模型 JanusFlow-1.3B。從名字也能看出來,參數量同樣不高。
據介紹,JanusFlow 是一個將圖像理解和生成統一在一個模型中的強大框架。其引入了一種極簡主義架構,將自回歸語言模型與校正流(rectified flow,一種生成建模的 SOTA 方法)相結合。
JanusFlow 的架構
DeepSeek 研究表明,校正流可以在大型語言模型框架內直接訓練,無需進行復雜的架構修改。為了進一步提高統一模型的性能,他們還采用了兩種關鍵策略:一是將理解和生成編碼器解耦,二是在統一訓練期間對齊它們的表征。
事實上, JanusFlow 的研究論文早在去年 11 月就已經發布。

  • 論文標題:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
  • 論文地址:https://arxiv.org/pdf/2411.07975
當時的實驗結果表明,JanusFlow 在不同的領域中都實現了與專門模型相當或更優異的性能,同時在標準基準上明顯優于現有的統一方法。因此,可以說,這項研究代表著向更高效和多功能的視覺語言模型邁出的重要一步。下圖展示了其一些基準測試結果數據以及生成結果。

DeepSeek 兩連擊:提升市場焦慮與競爭壓力
Janus Pro 7B 的發布引發了不少討論,比如 VentureBeat 認為:「Janus Pro 7B 的發布時機放大了其影響力。這是緊隨 R1 模型和隨之而來的市場動蕩之后,它強化了這樣的敘事:DeepSeek 是能夠顛覆 AI 既定秩序的創新者。
該媒體還認為:「Janus Pro 7B 的開源性質會加劇這種顛覆。與之前的開源運動一樣,這會讓人們更容易使用高級 AI。大型科技公司以外的企業將受益:無需供應商鎖定或高額費用即可獲得頂級 AI。對于 AI 巨頭來說,DeepSeek 構成了直接威脅:他們的專有高級模型能否在免費、高質量的替代品面前生存下來?當前的股市拋售情況表明投資者對此表示懷疑。」
對于 DeepSeek 正在給 AI 社區以及投資市場帶來的影響,你有什么看法,請與我們分享。
參考鏈接
https://venturebeat.com/ai/deepseek-unleashes-janus-pro-7b-vision-model-amidst-ai-stock-bloodbath-igniting-fresh-fears-of-chinese-tech-dominance/
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
不過年?DeepSeek繼續整活,推出統一多模態理解與生成模型
胖·觀察|Deepseek最新發布的多模態模型Janus-Pro究竟強在哪里?
DeepSeek的Janus-Pro表現如何?
DeepSeek震撼發布:Janus
DeepSeeK除夕夜再次王炸:多模態模型Janus-Pro開源
重磅!deepseek震驚全球,或遙遙領先同行
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 论坛| 思南县| 溆浦县| 呼玛县| 鄱阳县| 新乐市| 宜宾市| 凌源市| 长宁县| 林甸县| 当雄县| 瓦房店市| 田阳县| 册亨县| 双柏县| 枣强县| 宜昌市| 香格里拉县| 紫阳县| 昌图县| 福泉市| 旬阳县| 广东省| 桐梓县| 永宁县| 泰顺县| 嘉荫县| 迭部县| 增城市| 大宁县| 同心县| 余江县| 嘉禾县| 金坛市| 吉木乃县| 特克斯县| 祁东县| 怀远县| 璧山县| 张家港市| 阿拉善右旗|