
項目背景

來源:從心推送的防務菌
作者:防務君
2022年6月3日,美國防高級研究計劃局(DARPA)宣布推出最新的人工智能(AI)項目——“有保證的神經符號學習和推理”(ANSR),試圖以新的、混合的(神經符號)AI算法的形式來解決諸多挑戰,該算法將符號推理與數據驅動的學習深度融合,以創建強大的、有保證的、因而值得信賴的系統。
項目背景
自主和高度自主系統是美國防部 (DoD) 諸多任務,包括情報、監視和偵察 (ISR)、后勤、規劃、指揮和控制等所需的能力。所謂的好處很多,包括:1.改進的作戰節奏和任務速度;2.降低作戰人員在自主系統操作和監督方面的認知需求;3.增加對峙以提高作戰人員的安全性。正如2016年國防科學委員會 (DSB) 關于自主的報告所強調的那樣,與自主相關的一個關鍵需求是對可信賴性和信任的需要。一般而言,信任是對自主系統執行未指定任務的能力的信心表達。確保自主系統安全運行并按預期運行是信任的組成部分,這是國防部成功采用自主的關鍵。
美國DSB關于自主的報告
自DSB自主報告發布以來的六年中,機器學習(ML)算法取得了重大改進,這些算法對于實現自主至關重要。同時,保證技術的創新提供了在設計時評估系統的正確性和安全可信度并在運行時具有彈性的機制。盡管取得了這些進展,但高度自主仍然難以捉摸,DARPA將其歸因于數據驅動的機器學習的基本限制,這激發了新的思維和方法,將機器學習超越數據驅動的模式識別并用知識增強它——包括上下文、物理和其他背景信息的驅動推理。
過去十年見證了數據驅動ML應用的巨大進步,這得益于計算能力和數據的增長,其領域涵蓋從棋盤游戲到蛋白質折疊、語言翻譯到醫學圖像分析等廣泛領域。在其中幾個應用程序、ML和相關技術已經證明了在一組狹義的指標方面可以與人類能力相媲美,有時甚至超過人類能力的性能。然而,盡管取得了這些明顯的成功,但仍有許多與最先進(SOTA)ML算法相關的問題。例如,眾所周知,SOTA ML算法不能很好地泛化, 缺乏透明度和可解釋性,對環境不穩健和對抗性擾動。存在一些限制,例如對對抗性示例缺乏強健性,在理論上已被確定為本質上的基礎。
ANSR將包括與國防部有關的多個用例的演示,在國防部,保證和自主性是任務的關鍵。其中一個例子包括使用自主系統在一個高度動態和密集的城市環境中創建一個通用的作戰畫面,如該效果圖所描述的
工業ML研究的主流趨勢是擴大到千兆級和兆兆級模型(數十億個參數的數百個),作為提高準確性和性能的一種手段。這些趨勢是不可持續的,因為訓練此類模型需要極高的計算量和數據,以及縮放定律。這些趨勢也無法響應國防部應用程序的需求,這些應用程序通常缺乏數據和計算能力,對云規模計算資源的訪問有限。此外,DoD應用程序是安全的和關鍵任務的,需要在看不見的環境中運行,需要可審計,并且需要人工操作員信任。總而言之,ML研究的主流趨勢不利于DoD應用程序的可保證性和可信賴性需求。
構建智能應用程序和自主系統的傳統方法在很大程度上依賴于知識表征和符號推理。例如,這些方法中的復雜決策通常使用基于條件的編程規則、在有限狀態機中編碼的狀態邏輯以及使用常微分方程表征的環境和對象的基于物理的動力學來實現。這些經典技術有許多優點:
· 它們使用豐富的抽象,這些抽象基于領域理論和相關的形式,并得到高級工具和方法(Statecharts、Stateflow、Simulink 等)的支持;
· 它們可以是模塊化和可組合的,以軟件工程實踐支持的方式促進重用、精確和自動化分析;
· 它們可以通過正式規范和驗證技術支持的方式進行分析和保證,這些技術已在強化任務和安全關鍵系統免受網絡攻擊方面得到驗證。
然而,這些方法在實際自主應用中使用時也有局限性。它們在處理現實世界的不確定性和高維感官數據時表現不佳,這是感知和情境理解應用程序不可或缺的,這些決策應用程序中的規則集和狀態邏輯在暴露于意外情況時通常是不完整和不充分的。此外,眾所周知,常識性知識難以編纂。例如,Cyc知識庫包含數百萬個概念和數千萬條規則,但對于許多現實世界的任務來說還不夠。
確保具有ML組件的網絡物理系統 (CPS) 的挑戰一直是DARPA正在進行的 “有保證自主”(Assured Autonomy)項目以及其他研究項目支持的一個活躍研究領域。具體來說,在Assured Autonomy項目中開發的保證方法產生了:1.形式化和基于模擬的驗證工具,可以全面探索 CPS的行為;2.可以檢測ML組件與預期輸入和行為的偏差的監控工具,避免最壞情況下的安全后果的復原力和恢復策略;3.一個保證案例框架,能夠以證據支持結構化論證,以支持已識別重大安全危害且其根本原因已得到充分緩解的主張。
DARPA “有保證自主”(Assured Autonomy)項目
保證技術的進步,包括形式化和基于模擬的方法,有助于加速識別ML算法的故障模式和缺陷。不幸的是,修復SOTA ML中缺陷的能力仍然僅限于再訓練,這并不能保證消除缺陷或提高ML算法的通用性。此外,雖然運行時保證架構(包括監控和恢復)確保了操作安全,但頻繁調用回退恢復(由ML的脆弱性和普遍性觸發)會損害完成任務的能力。
因此,根據ANSR的目標,DARPA將一個系統定義為值得信賴的,如果它具備以下特征:1.對領域知情和對抗性擾動具有強健性;2.得到保證框架的支持,該框架為安全和風險評估創建和分析異質證據;3. 對“適應度”的某些規范和模型是可預測的。
DARPA假設當今ML的一些限制是:1.無法結合上下文和背景知識的結果;2.將每個數據集視為一個獨立的不相關輸入。在現實世界中,觀察結果通常是相關的,并且是潛在因果機制的產物,可以建模和理解。DARPA認為,能夠獲取和集成符號知識并大規模執行符號推理的混合AI 算法將提供穩健的推理,推廣到新情況,并提供保證和信任的證據。
DARPA設想修改訓練和推理過程以將符號和神經表示交錯以進行迭代推理和表示的相互適應,以利用每種表征的好處并減少每種表征的限制。修改后的訓練過程將產生基于域特定符號的表示,本質上是神經網絡 (NN) 隱式數據表示的符號等價物。修改后的推理過程迭代地收斂到符合符號和神經表示的響應。符號表示可以明確地包括先驗知識和特定領域的規則和約束,并能夠根據規范和保證參數的構造進行驗證。
最近針對特定應用的一些結果提供了信心的基礎。例如,最近的一項研究構建了一種混合強化學習 (RL) 架構的原型,該架構通過數據驅動學習獲取一組符號策略。符號策略采用可解釋和可驗證的小程序的形式。該方法顯然繼承了兩全其美:它學習在已知環境中高性能的策略,并且通過在未知環境中保持安全(無崩潰)來很好地概括。另一種最近的方法使用符號推理來修復NN在估計場景中的對象姿勢時的錯誤,并且它在幾種情況下實現了更高的準確度(比基線高30-40%)。
ANSR項目開發的混合人工智能技術將實現新的任務能力。該項目旨在驗證能夠確保執行獨立的ISR任務,以開發高度動態密集城市環境的通用作戰圖 (COP)。執行ISR任務的自主系統將攜帶效果有效載荷,以減少傳感器到效果的交付時間。雖然效果的傳遞由人在回路控制,但效果承載系統本質上是一個安全和任務關鍵型系統,因此需要對避免碰撞和任務性能有強有力的保證。SOTA機器學習或獨立的符號推理系統無法實現自主系統在深入了解情況和決策方面所需的能力。訓練數據稀疏,進一步激發了混合AI 方法的使用。
項目說明
ANSR項目的首要目標是推進混合AI算法并開發基于證據的技術,以支持對這些算法進行自信的保證判斷。該項目旨在探索各種混合架構,這些架構可以以先驗知識為種子,通過學習獲得統計和符號知識,并適應學習的表示。該項目旨在通過與國防部任務相關的用例來演示和評估混合人工智能技術,其中保障和自主性是關鍵任務。
ANSR項目設想了一種新的表示學習和推理方式,以引領混合人工智能。SOTA ML,特別是NN,可以被視為學習低維高維數據集的表示。下圖提供了過度簡化的訓練過程渲染。灰色小山是關于NN的參數(或權重)的目標函數(損失函數)的描述。灰色山丘上的每個點都是該參數空間中的一個點,表示目標函數相對于NN的當前參數配置的值。
神經符號表征學習
獨立的神經機器學習需要爬上梯度來優化目標函數。最佳配置表征最適合訓練數據。該表征雖然非常適合基礎訓練數據,但仍然不知道產生數據的因果關系或基礎機制。在缺乏關于底層機制的任何知識的情況下,推理任務仍然受訓練數據分布的約束,并且無法泛化超出訓練數據分布。
此訓練過程的變體可能會考慮領域知識,并嘗試根據領域原語來學習數據的表征。圖中的淺藍色云描繪了此類域圖元的空間,可以是數學方程、由特定域圖元(組件或函數)組成的符號程序或其他表示形式。修改后的訓練過程需要將數據驅動的更新與尋找可以重現數據的特定領域原語的組合的綜合問題交織在一起。學習到的符號表征可以與神經表征相結合,用于重新評估目標函數。迭代更新一直持續到符號表征中的固定點,當與神經表征結合時,最大化目標函數。此訓練過程的結果是可用于推理的數據的混合神經和符號表征。可以說,這種混合表征可以結合兩全其美,即數據驅動的學習和符號推理,以及在不確定的現實世界情況下更好的性能、可概括性、可解釋性和可保證性的潛在好處。
值得注意的是,上述方法只是學習混合神經和符號表征的一種概念方法,而不是作為解決方案的處方。ANSR項目預期許多架構最適合特定的應用任務將神經和符號表征與不同的方法相結合,以獲取、優化和在推理中使用緊密耦合的神經和符號表征。
項目技術領域
ANSR項目的發展將在以下總結的四個技術領域(TA)中進行協調:
技術領域一(TA1):算法和架構
TA1 的目標是開發和建模新的人工智能算法和架構,將符號推理與數據驅動的機器學習深度集成。TA1將探索和評估一系列適用于不同任務的可能算法和架構模式。
技術領域二(TA2):規范和保證
TA2 的目標是開發保證框架和方法,以獲取和整合正確性證據并量化特定任務的風險。TA2將建立一個管道,將混合神經符號表征抽象為形式上可分析的表征,并根據一組任務相關規范對其進行分析。TA2還將探索估計和量化特定任務風險的技術。
技術領域三(TA3):平臺和能力演示
TA3的目標是開發用例和架構,用于混合AI算法的工程任務相關應用,適用于演示和評估穩健和有保證的性能。具體而言,ANSR項目打算通過確保執行獨立的ISR任務來進行演示驗證,以開發高度動態密集城市環境的通用作戰圖 (COP)。
技術領域四(TA4):保證分析和評估
TA4 的目標是:1.開發具有對抗性AI的保證測試工具;2.評估各個技術領域的技術及其在系統中的構成。TA4將充當紅隊,通過對抗性評估來調查保證聲明的有效性。TA4還將細化提議的計劃指標,并定義衡量系統可信度的特征。TA4將需要通過采用混雜擾動并量化系統性能損失的對抗性評估來評估穩健性、普遍性和保證聲明。
項目階段和時間表
ANSR項目分為三個階段。第一階段將持續 18個月,將開發和驗證高風險技術組件情況理解、活動識別和安全機動決策。第一階段實驗將是在游戲環境中并通過SIMexp進行的多個部分線程:(線程1)展示了安全可靠的機動決策,同時假設完美感知; (線程2)演示驗證活動識別和情況理解,同時假設人工引導的安全操作;(線程3)演示COP開發、洞察力和分析,同時假設完美感知和人類引導的安全操作。評估將根據任務能力指標以及SOTA基線進行。
ANSR項目時間安排
ANSR項目的第二階段將持續15個月,將整合這些單獨的線程,并演示驗證閉環態勢理解、確保和安全的機動決策、COP構建和分析,以用于獨立ISR任務的端到端演示。評估將針對任務能力指標(例如,COP 完整性、準確性和及時性、掃描效率、所需人力、傳感器到效果時間線)和技術指標(例如,保證有效性、穩健性、普遍性、準確性)。
ANSR項目的第三階段也將持續15個月,將演示驗證端到端ISR任務,并在國防部設施中進行現場演習。除了任務能力和技術指標外,評估還將包括事后審查和士兵反饋。
出于預算目的,2023年1月5日作為所有ANSR項目的開始日期。