基于transformer的大型語言模型在機器學習研究領域迅速發展,其應用范圍跨越自然語言、生物學、化學和計算機編程。來自人類反饋的擴展和強化學習顯著提高了生成文本的質量,使這些模型能夠執行各種任務并對其選擇進行推理。本文提出一個智能體系統,結合多個大型語言模型進行自主設計、規劃和科學實驗的執行。我們用三個不同的例子展示了智能體的科學研究能力,其中最復雜的是催化交叉耦合反應的成功表現。最后,我們討論了此類系統的安全影響,并提出了防止其濫用的措施。
1. 引言
大型語言模型(LLM),特別是基于transformer的模型,近年來正在經歷快速發展。這些模型已經成功地應用于各種領域,包括自然語言、生物和化學研究, 以及代碼生成。如OpenAI所展示的,模型的極端擴展已經導致了該領域的重大突破。此外,從人類反饋中強化學習(RLHF)等技術可以大大提高生成文本的質量,以及模型在推理其決策的同時執行不同任務的能力。
2023年3月14日,OpenAI發布了他們迄今為止最強大的LLM, GPT-4。雖然關于模型訓練、大小和使用的數據的具體細節在技術報告中有限,但研究人員已經提供了該模型非凡的解決問題能力的實質性證據。這些包括但不限于SAT和BAR考試的高百分位數,LeetCode挑戰,以及來自圖像的上下文解釋,包括小眾笑話。此外,技術報告提供了一個例子,說明如何使用該模型來解決化學相關的問題。
在這些結果的啟發下,我們旨在開發一個基于多LLMs的智能Agent(以下簡稱Agent),能夠自主設計、規劃和執行復雜的科學實驗。該智能體可以使用工具瀏覽互聯網和相關文檔,使用機器人實驗APIs,并利用其他LLMs完成各種任務。本文通過評估智能體在三個任務中的性能來證明其多功能性和有效性: 1.在廣泛的硬件文檔中高效搜索和導航 ;2.在低液位上精確控制液體處理儀表; 3.解決需要同時利用多個硬件模塊或集成不同數據源的復雜問題。
2. 智能體的架構: 由其多個模塊定義的動作空間
智能體的系統由四個組件組成(圖1),由“規劃器”驅動。“規劃器”將一個提示作為輸入(例如,“執行多個Suzuki反應”),并根據這個請求執行動作。行動空間包括訪問互聯網(“谷歌<query>”請求),用Python執行計算(“Python<code>”),訪問文檔(“documentation<query>”),以及運行最終實驗(“experiment <code>”)。實驗可以在各種環境中進行——云實驗室,使用液體處理程序,或通過提供手動執行實驗的說明。該模型被指示推理其行動,搜索互聯網,計算反應中的所有數量,然后執行相應的反應。智能體意識到,平均來說,至少需要十個步驟才能完全理解所請求的任務。如果提供的描述足夠詳細,則不需要向提示提供者進一步澄清問題。
“網絡搜索器”組件接收來自規劃器的查詢,將它們轉換為適當的網絡搜索查詢,并使用谷歌搜索API執行它們。返回的前10個文檔被過濾,不包括pdf,得到的網頁列表被傳遞回“網絡搜索器”組件。然后,該組件可以使用“瀏覽”動作從網頁中提取文本,并為規劃器編譯一個答案。對于這項任務,我們可以采用GPT-3.5,因為它的執行速度明顯快于GPT-4,而質量沒有明顯損失。“文檔搜索器”組件通過利用查詢和文檔索引來查找最相關的頁面/部分,梳理硬件文檔(例如,機器人液體處理程序,GC-MS,云實驗室)。然后聚合最佳匹配結果,以提供全面和準確的最終答案。這個模塊側重于為硬件API提供具體的函數參數和語法信息。
“代碼執行”組件不利用任何語言模型,只是在一個隔離的Docker容器中執行代碼,保護終端主機機器免受規劃器任何意外操作的影響。所有的代碼輸出都被傳遞回規劃器,使其能夠在出現軟件錯誤的情況下修復其預測。這同樣適用于“自動化”組件,然后在相應的硬件上執行生成的代碼,或者只是提供人工實驗的合成過程。
3. 網絡搜索使Agent的綜合規劃能力成為可能
為了演示系統的功能,我們以布洛芬的合成為例(圖2A)。輸入提示直截了當:“合成布洛芬”。然后,該模型在互聯網上搜索關于布洛芬合成的信息,在特定網站上定位必要的細節。該模型正確地識別了合成的第一步,即氯化鋁催化的異丁基苯和乙酸酐之間的弗里德爾-克拉夫反應(見附錄A)。一旦模型要求提供弗里德爾-克拉夫合成程序的文件,第一步的規劃階段就結束了。
系統能力的另外兩個例子包括普通阿司匹林的合成(圖2B和附錄B)和阿斯巴甜的合成(圖2D和附錄C),前者是模型有效搜索和設計的,后者雖然缺少產品中的甲基,但一旦模型收到合適的合成示例,在云實驗室中執行,就可以糾正。此外,當被要求研究一個Suzuki反應時,該模型準確地識別了底物和產物(圖2C和附錄D)。當建議特定的催化劑或堿時,用于文本生成的高溫參數會導致波動。
通過API將模型連接到Reaxys14或SciFinder15等化學反應數據庫,可以顯著提高系統的性能。或者,分析系統之前的語句是提高其準確性的另一種方法。
向量搜索可用于軟件文檔的檢索。
為了將一個能夠復雜推理的智能體與軟件集成,提供相關技術文檔的清晰簡潔的表述至關重要。現代軟件的特點是其復雜性和各種組件之間錯綜復雜的相互作用。因此,全面的軟件文檔對于程序員理解這些交互作用并有效地利用它們來實現目標是必不可少的。盡管如此,傳統的軟件文檔經常使用高度技術性的語言,這對于非專業人士來說很難掌握。這為軟件的許多潛在用戶制造了障礙,限制了它的使用范圍和有效性。
大型語言模型有可能通過生成非專家更容易訪問的軟件文檔的自然語言描述來克服這一障礙。這些模型是在來自各種來源的大量文本語料庫上進行訓練的,這些語料庫包括與應用程序編程接口(API)相關的大量信息。其中一個這樣的API是Opentrons Python API.16然而,GPT-4的訓練數據包含截至2021年9月的信息。因此,有可能提高智能體使用API的準確性。為此,我們設計了一種方法來為智能體提供給定任務所需的文檔,總結在圖3A中。
掌握自動化: 多儀器系統由自然語言控制。
獲取文檔使我們能夠為智能體提供足夠的信息,以便在物理世界中進行實驗。為了啟動調查,我們選擇了一個開源的液體處理程序,它具有文檔完備的Python API。其文檔中的“入門”頁面在系統提示中提供給了規劃師。其他頁面使用“提供硬件API文檔”一節中描述的方法進行向量化。
4. 智能體具有高度的推理能力。
該系統顯示出了非常高的推理能力,使其能夠請求必要的信息,解決復雜的問題,并為實驗設計生成高質量的代碼。OpenAI已經表明,在Alignment研究中心進行的初始測試中,GPT-4可以依靠其中的一些能力在物理世界中采取行動。
智能體表現出的最顯著的推理能力是它能夠根據自動生成的輸出來糾正自己的代碼。除了已經提到的例子之外,在鈴木反應的機械研究的計算中,該模型要求系統執行導入了未安裝的SymPy包(參見附錄D)的代碼。在收到相應的追蹤后,智能體使用basic Python修改了代碼。然而,這個修改后的代碼仍然被證明是沒有幫助的,因為它沒有返回任何輸出(模型已經假設解釋器是在交互模式下使用的)。承認這一點后,智能體通過合并print()語句進行了最后的調整。
Agent展示了對關鍵科學問題的有趣方法。
此外,我們的目標是評估系統在遇到異常具有挑戰性的問題時的性能。我們首先要求模型開發一種新的抗癌藥物(參見附錄E)。該模型以邏輯和方法的方式接近分析:它首先詢問了當前抗癌藥物發現的趨勢,隨后選擇了一個目標,并要求一個靶向這些化合物的支架。一旦化合物被識別,模型就會嘗試其合成(這一步不是在實驗中進行的)。另一個例子涉及研究Suzuki反應的機理(見附錄D)。在這種情況下,模型尋找有關反應機理的信息,并在獲得單個步驟后,尋找此類反應的示例。為了執行反應,模型計算了所需的試劑數量,并要求獲得與相應合成相關的文檔頁面。
所開發方法的安全性影響。
人們越來越擔心分子機器學習模型可能被濫用以達到有害的目的。具體來說,用于預測細胞毒性以創造新的毒物或使用AlphaFold2開發新型生物武器的模型的兩用應用已經敲響了警鐘。這些擔憂的核心是可能誤用大型語言模型和用于兩用或其他目的的自動化實驗。我們具體解決了兩個關鍵的合成問題: 非法藥物和化學武器。為了評估這些風險,我們設計了一個測試集,包括來自DEA附表I和II物質的化合物和已知化學武器制劑的清單。我們使用這些化合物的通用名稱、IUPAC名稱、CAS編號和SMILES字符串向制劑提交了這些化合物,以確定制劑是否會進行廣泛的分析和規劃(圖6)
5. 結論
本文提出了一個能夠自主設計、規劃和執行復雜科學實驗的智能智能體系統。該系統展示了異常的推理和實驗設計能力,有效地解決了復雜問題并生成了高質量的代碼。
然而,用于進行科學實驗的新機器學習系統和自動化方法的開發引起了人們對安全性和潛在的雙重使用后果的大量擔憂,特別是與非法活動和安全威脅的擴散有關。通過確保合乎道德和負責任地使用這些強大的工具,我們可以繼續探索大型語言模型在推進科學研究方面的巨大潛力,同時降低與其濫用相關的風險。
局限性、安全建議和行動呼吁
我們強烈認為,必須設置護欄,以防止這種類型的大型語言模型的潛在雙重用途。我們呼吁AI社區參與優先考慮這些強大模型的安全性。我們呼吁OpenAI、微軟、谷歌、Meta、Deepmind、Anthropic和所有其他主要參與者在其llm的安全性方面做出最大努力。我們呼吁物理科學界與參與開發llm的參與者進行合作,以幫助他們開發這些護欄。
1. 人工干預: 雖然系統顯示出高度的推理能力,但可能在某些情況下需要人工干預,以確保生成實驗的安全性和可靠性。我們建議在潛在敏感實驗的審查和批準中加入人在回路組件,特別是那些涉及潛在有害物質或方法的實驗。我們認為,專家應該對智能體在物理世界中的行為進行監督和審議。
2. 新穎化合物識別: 目前的系統可以檢測和防止已知有害化合物的合成。然而,它在識別具有潛在有害特性的新型化合物方面效率較低。這可以通過實現機器學習模型來規避,在將其傳遞到模型之前識別潛在有害的結構。
3.數據質量和可靠性: 該系統依賴于從互聯網上收集的數據和操作文檔的質量。為了保持系統的可靠性,我們建議對數據源進行持續的整理和更新,確保使用最新和準確的信息來為系統的決策過程提供信息。
4. 系統安全性: 多個組件的集成,包括大型語言模型和自動化實驗,會帶來安全風險。我們建議實施健壯的安全措施,如加密和訪問控制,以保護系統免受未經授權的訪問、篡改或誤用。
更廣泛的影響
提出的機器學習系統對科學、技術和社會有許多潛在的更廣泛的影響:
1. 科學研究的加速: 通過自動化實驗的設計、規劃和執行,該系統可以顯著加速科學研究跨越各個領域。研究人員可以專注于解釋結果,完善假設,并進行發現,而系統則處理實驗過程。
2. 科學資源的民主化: 該系統有可能使資源或專業知識有限的研究人員更容易進行科學實驗。它可能使較小的研究團體或個人能夠在大型語言模型和云實驗室的支持下進行復雜的實驗,促進更具包容性的科學社區。
3.跨學科合作: 該系統具有跨領域的通用性,包括自然語言、生物、化學和計算機編程,可以促進跨學科合作。來自不同領域的研究人員可以利用該系統的能力來解決需要多種技能和知識的復雜問題。
4. 教育和培訓: 該系統可以作為學生和研究人員學習實驗設計、方法論和分析的有價值的教育工具。它可以幫助培養批判性思維和解決問題的能力,以及鼓勵對科學原理有更深入的理解。
5. 經濟影響: 通過自動化和簡化實驗過程,該系統可以潛在地降低與研發相關的成本。這可以導致對研究和創新的投資增加,最終推動經濟增長和競爭力。
然而,潛在的更廣泛影響還包括必須應對的挑戰和風險。確保對系統的負責任和合乎道德的使用,實施強有力的安全措施,并不斷更新數據源,是減輕潛在負面后果的必要步驟,如有害物質的擴散或將強大的機器學習工具濫用于邪惡目的。通過解決這些擔憂,我們可以釋放擬議系統的全部潛力,并推動整個科學研究和整個社會的積極變化。
專知便捷查看