DARPA項目旨在將機器學習對標簽數據的依賴性降低百萬倍,以實現更高效的系統開發和適應。
機器學習的弱項
當前的機器學習(Machine Learning,ML)系統通過先例學習獲取了大量數據,這些數據已被分析師單獨標記以生成所需的輸出。隨著這些系統的發展,深度神經網絡(Deep Neural Networks,DNN)已成為ML模型中的最新技術。DNN能夠以更高的準確度為機器翻譯和語音或對象識別等任務提供動力。但是,訓練DNN需要大量標記數據,通常是109或1010個訓練樣例。對大量信息進行積累和標記的過程既昂貴又耗時。
單一神經網絡與深度神經網絡的區別
除了積累標記數據的挑戰之外,大多數ML模型都很脆弱,并且在其操作環境發生微小變化時容易崩潰。例如,如果房間的聲學環境或麥克風的傳感器發生變化,則可能需要在全新的數據集上重新訓練語音識別或音源識別系統。調整或修改模型所需的時間和精力幾乎與從頭創建模型一樣多。
DARPA的應對項目
為了減少與訓練和調整ML模型相關的前期成本和時間,DARPA正在推出名為“更少標記的學習”(Learning with Less Labels ,LwLL)的新項目。通過LwLL項目,DARPA將研究新的學習算法,這些算法可以大大減少信息量來訓練或更新。
目前的機器學習系統通過先例學習獲取大量數據,這些數據已被分析師單獨標記以生成所需的輸出。LWLL項目旨在使訓練機器學習模型的過程更加高效(將建模需要的數據標記量減少六個乃至更多量級,并將適應新環境的模型數據量減少數十到數百個標記先例)。
“通過LwLL(項目),我們正在尋求將從頭開始構建模型所需的數據量減少百萬倍,并減少將模型從數百萬到數百個標簽先例進行調整所需的數據量”,DARPA信息創新辦公室(I2O)LwLL項目經理Wade Shen表示,“也就是說,現在需要一百萬張圖像來訓練一個系統,將來只需要一張圖像,或者將來只需要大約100個標記的先例即可適應系統而不是當前所需的數百萬個。”
LwLL項目注重的兩個技術領域
為了實現其目標,LwLL項目研究人員將探索兩個技術領域。
第一個技術領域側重于構建高效學習與適應的學習算法。研究人員將研究和開發能夠通過既定程序指標減少所需數量標記先例的算法,而不犧牲系統性能。對此,Wade Shen表示,“我們鼓勵研究人員在元學習(meta-learning,注:也稱為學會學習,其已成為繼增強學習之后又一個重要的研究分支,目的是讓AI擁有核心價值觀從而實現快速學習)、遷移學習( transfer learning,注:把已學訓練好的模型參數遷移到新的模型來幫助新模型訓練)、主動學習(active learning,注:主動學習那些比較難的、信息量大的樣本)、K-shot學習(K樣本學習,注:就是每個分類中取K個樣本學習)以及監督/無人監督適應性等領域創造新方法,以解決這一挑戰。”
第二個技術領域要求研究團隊規范地描述機器學習問題,包括決策難度和用于制定決策的數據的真實復雜性。對此,Wade Shen表示,“目前很難理解在構建ML系統時我們的效率如何,或者模型的準確度水平存在哪些基本限制。通過LwLL項目,我們希望找到ML可能性的理論極限,并利用這一理論來推動系統開發和能力的界限。”
防務菌
轉載請注明出處
防務菌
有禮有節&百無禁忌
來將通名&非誠勿擾