中金公司:ManusAI通用智能體將大幅拉動AI工業自動化改造
3月6日凌晨,國產大模型團隊Monica重磅發布了全球首款通用型AI智能體產品Manus。據介紹,Manus與傳統AI助手不同,它能夠解決各類復雜多變的任務,不僅能提供建議或答案,還能直接交付完整的任務成果,是真正自主的AI代理。在GAIA基準測試中,Manus取得了SOTA(State-of-the-Art,是指在某一領域或任務中,某個模型或方法達到了當前最優的性能水平)的成績,顯示其性能超越OpenAI的同層次大模型。
市場人士分析稱,2025年被普遍視為AI智能體商業化元年,Gartner預測,到2028年15%的日常工作決策將由智能體完成,Manus AI作為全球首個通用AI Agent產品,其效果超越OpenAI DeepResearch,標志著智能體從單一任務執行向復雜決策的跨越,可能加速AI在醫療、金融、制造等領域的滲透。
AI Agent帶動更多應用興起,大幅拉動AI工業自動化改造
AI Agent的四大龍頭:南興股份、漢得信息、酷特智能、鼎捷數智,他們有個共同特征,全部是新型工業化改造,工業互聯網題材。
中金公司研報指出,B端,AI Agent有望憑借專業性的知識沉淀落地B端市場,實現企業降本增效,其中賦能企業效率提升是決策核心考量,我們看好AI agent帶來的效率提升有望刺激新一輪產業投資。同時具身智能側,AI Agent賦予工業機器人智慧,產業落地想象空間廣闊。
?AI Agent在工業自動化領域具有顯著的應用潛力和優勢,能夠顯著提高生產效率、減少停機時間并提升產品質量?。AI Agent可以通過實時分析和優化生產線運行參數,提高生產效率和靈活性,實現生產線的自動調度和負載均衡?。此外,AI Agent還可以通過分析設備運行數據,預測潛在故障,從而實現預防性維護,減少停機時間?。-
----------
manus會議紀要
Q:為什么認為 manus 這款通用的 agent 比 OpenAI 推出的 agents 更強?
A:OpenAI 的 agents 主要借助瀏覽器工作,任務大多類似在網站上的操作,沒有直接進行如寫 PPT、寫代碼等操作。而 manus 更聚焦完成具體任務,不單純在網頁操作,會根據任務選擇操作場景,雖然與 OpenAI 有類似之處,主要任務在 API 調用、web 操作、數據分析等方面,但 manus 在 web 操作上更豐富,所以認為 manus 比 OpenAI 的更強,不過這也和產品定位不同有關。
Q:manus 主要在什么場景下使用?
A:manus 與 OpenAI 不同,更聚焦完成具體任務,不單純在網頁,根據任務選擇在網頁或其他場景操作,但主要任務還是集中在類似 API 調用、web 操作、數據分析上,無法執行如直接關機或物理世界的任務。相比 OpenAI,manus 在 web 上的操作更豐富,OpenAI 的 web 操作基本局限于打開網站做些任務等簡單操作。
Q:manus AI 調用的基礎模型是哪一個或哪幾個?用的是什么芯片?
A:基礎模型大概率是 open I、cody,有百分之八九十的概率,從編程結果看與 cloud 非常接近,因為目前全球能做出高準確度編程結果的只有 cloud,open I 都做不到,同時 manus 也有自己部署的 deep think a one 來做工具調用。推理芯片主要以 H20 為主,open I 等只是調用 API,不需要采購芯片。
Q:GGALA 開頭的 benchmark 的含金量如何?manus 在這個 benchmark 上比 deep research 表現好,是因為 benchmark 的選擇有 bias,還是確實水平更高?
A:目前全球代理的評價框架成熟的基本只有這一個,OpenAI 也用這一套評價指標,所以當下它的含金量還是可以的。從結果來看,不是因為 benchmark 的選擇導致 manus 分數更高,而是比較實際客觀的水平。因為 manus 的架構引入大量編程任務做校驗,代碼可通過簡單方法檢測任務完成情況,且它有自主學習能力,大部分來自代碼,代碼執行正確就可固化成成功經驗,所以在同樣模型基礎下,manus 分數更高。
Q:manus 執行的任務是要對應 APP 開放 API 給它嗎?還是現有的 API 調用已經可以執行任務了?
A:manus 執行任務大部分針對公開的網站和數據,對于完全不公開的 APP 無法執行任務。例如簡歷分析數據源由用戶提供,無需與外部打交道;金融股票分析數據基本公開,股票分析代碼現在大部分大模型都能寫出,它不具備絕對創新性,只能基于現有的公開數據和經驗形成一套工具流方法,在工程和產品上做了一些創新,使 agent 執行更易用,能力局限在公開數據和知識經驗上。
Q:manus 單任務的成本大概是多少?單任務用的 token 數大概是多少?
A:單任務的平均成本大概在兩美金,這是能確定的數據;token 的用量預估三個任務可能在 1000 個 token 左右,這只是推測數據。
Q:token 用量 1000 多個是怎么估出來的數字?如何看待 manus 整個任務和推理過程都在云端上跑的生態體系?
A:token 用量是根據每次任務的反饋、整個思考過程以及其他處理時間推測其 token 的生成量得出的。manus 在云端跑的解決方案對云計算是利好,能極大增加云計算的消耗量,對于數據分析、基于公開數據的任務,現有架構可以支撐,但對于一些特定平臺才能完成的任務,如 windows 打游戲等任務無法實現,因為其使用的容器技術(如 K8S)不支持 windows 操作系統,存在一定局限性。它是對 ChatGPT 的 agent 使用 web 的更深入應用,增加了寫代碼和代碼執行等前置工作,更多依賴 API 完成下一步操作,而非完全依賴大模型指導操作。
Q:manus 在官方演示 demo 里讀 PDF,是純視覺識別一頁一頁識別,還是直接讀取 PDF 的數據?翻頁是真的在翻嗎?
A:manus 讀 PDF 應該有兩步操作,如果能讀出文字,會直接讀取每一頁文字;如果文字無法讀出,會用 OCR 識別提取圖片中的文字。翻頁 PDF 只是可視化效果,造成 AI 在工作的現象,實際上可以不打開 PDF,直接在后臺找出所有內容,真實讀文字的速度比演示快很多,即使通過 OCR 讀 PDF 速度也比演示快至少十幾倍,所以翻頁是個假動作。
Q:manus 現在做的事情在本質上是否是套殼產品?國內模型大廠如阿里、字節在復刻上有沒有非常大的壁壘?
A:如果從底層 80% 都是外部供應來定義,manus 可以認為是套殼產品,比如虛擬機,容器用的是 doka 的解決方案,工具調用決策、結果生成用的都是外部研發的大模型,不是自主研發的。但從另一個角度看,軟件也像是供應鏈管理系統,找到各模塊最好的供應商(開源或收費的)整合成最終產品。阿里等大廠復刻大概流程可能不是很難實現的門檻,但要做到與 manus 整體完全一致不太可能,可能會在大概流程上保持一致,細節上有的地方可能做得更好,不是有很高門檻的產品。
Q:manus 是怎么保證準確率的?manus 這種形式對 token 的消耗量與傳統 chat 相比大概是什么比例?
A:manus 主要通過寫代碼保證準確率,先通過編程大模型根據用戶任務生成相應代碼,大概能保證百分之八九十代碼正確運行,但生成結果是否符合客戶真實需求無法百分百保證。manus 對 token 的消耗量最少比傳統 chat 高十倍,平均可能高 10 到 100 倍,因為如果決策模型智能水平稍差,可能導致多次循環,每次還需檢查結果,所以 token 消耗量按幾個數量級估算。
Q:單任務 1000 token,chat 的平均一個對話是 5000 token,為什么 manus 的 token 量會更少?
A:提問不太明確所指的 manus 的 token 量情況,未給出清晰解答。
Q:從端側可以使用 manus 嗎?
A:如果用端側大模型配合 manus,當下可能可以用,但準確率和重復試錯率比用云端高很多。manus 需要配合云端容器才能很好運行,對端側的 GPU 推理算力、計算能力、內存要求都很高,絕大部分用戶在端側不太可能使用。不像 chatGPT 的一些產品,如 code 和 interm 這種 AI,只是用云端 AI 做代碼任務,所有執行基本在端側完成,且端側操作相對簡單,主要是文件修改和比對等。manus 任務較重,要執行代碼,存在安全性問題,如執行帶病毒代碼可能導致電腦無法工作甚至刪除重要文件,所以在端側不太好落地,最多還是借助云端容器的方式落地。
Q:單任務成本兩美金,這個單任務是指拆分出來的單個子任務,還是一個提問的成本?
A:是指一個提問的成本大概是兩美金,不是拆分出來的單個子任務。
邏輯
邏輯
邁富時
邏輯
邏輯
邏輯
邏輯
邏輯
邏輯
邏輯
邏輯