原生AI企業是推動行業技術進步和產業化的引擎。2024年11月,沙利文發布《2024年全球AI生態全景概覽》,其中原生AI巨頭有谷歌、百度、OpenAI三家。通過原生AI企業的技術、產業創新實現“冷靜期”跨越有跡可循。比如,谷歌在2017提出了Transformer架構,成為推動預訓練模型進化為大模型落地的最關鍵技術。2023年OpenAI發布ChatGPT,通用大模型首次進入公眾視野,喚醒沉寂多年的AI賽道。2024年百度世界大會召開,開創性主張“AI應用向實”,中國AI發展正式進入彎道超車階段。 3、 重視AI行業的“新三要素”:幻覺消除、開發加速、智能體發展3.1 大模型欠缺真實感,消除智能幻覺是首要任務大語言模型(Large Language Model)中的“幻覺”現象指的是模型生成的內容雖然看似合理,但實際存在事實錯誤;或者AI生成的文字、圖片、視頻在直覺上不符合人類認知,欠缺真實感。“幻覺”主要有邏輯謬誤、捏造事實、數據偏見三類。通常是因為模型的推理能力欠缺,算法框架存在漏洞,數據壓縮、數據不一致性等原因導致。多模態大模型領域興起,圖像、音頻、視頻類模型也出現幻覺現象。比如,OpenAI的Sora大模型雖然在視頻生成領域表現優異,但也存在生成的視頻違背物理規律,時空關系錯亂等情況。這也是正式版Sora無法上線的主要原因之一。業內解決“幻覺”問題的方式是采用RAG技術,(Retrieval-Augmented Generation)即檢索增強生成,通過結合階段和增強生成,減少學習數據中的“負樣本”,以此來減少大模型的幻覺現象。但這也僅限于在LLM領域。在多模態領域,百度開發了基于圖像的iRAG(Image based RAG)技術,將搜索引擎的億級圖片資源與文心基礎模型能力進行結合,在強化學習生成下,輸出各種真實的圖片,整體效果遠超傳統的“文生圖”的原生系統,有效的消除了“AI味”。未來,以iRAG技術為代表多模態RAG將成為業內緩解AI“幻覺”現象的主要方向,為更成熟、更真實的多模態應用發展提供更準確的能力。