精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AI巨頭們給白宮交卷:谷歌等12家機構(gòu)聯(lián)合發(fā)布“模型安全性評估框架”

新智元報道

編輯:LRS

【新智元導(dǎo)讀】AI研究的下一主題:安全,安全,還是安全。

5月初,白宮與谷歌、微軟、OpenAI、Anthropic等AI公司的CEO們開了個會,針對AI生成技術(shù)的爆發(fā),討論技術(shù)背后隱藏的風險、如何負責任地開發(fā)人工智能系統(tǒng),以及制定有效的監(jiān)管措施。

現(xiàn)有的安全評估過程通常依賴于一系列評估基準(evaluation benchmarks)來識別AI系統(tǒng)的異常行為,比如誤導(dǎo)性陳述、有偏見的決策或是輸出受版權(quán)保護的內(nèi)容。

而隨著AI技術(shù)的日益強大,相應(yīng)的模型評估工具也必須升級,防止開發(fā)出具有操縱、欺騙、網(wǎng)絡(luò)攻擊或其他高危能力的AI系統(tǒng)。

最近,Google DeepMind、劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic等多所頂尖高校和研究機構(gòu)聯(lián)合發(fā)布了一個用于評估模型安全性的框架,有望成為未來人工智能模型開發(fā)和部署的關(guān)鍵組件。

論文鏈接:https://arxiv.org/pdf/2305.15324.pdf

通用AI系統(tǒng)的開發(fā)人員必須評估模型的危險能力和對齊性,盡早識別出極端風險,從而讓訓練、部署、風險描述等過程更負責任。

評估結(jié)果可以讓決策者和其他利益相關(guān)者了解詳情,以及對模型訓練、部署和安全做出負責任的決定。

AI有風險,訓練需謹慎

通用模型通常需要「訓練」來學習具體的能力和行為,不過現(xiàn)有的學習過程通常是不完善的,比如在此前的研究中,DeepMind的研究人員發(fā)現(xiàn),即使在訓練期間已經(jīng)正確獎勵模型的預(yù)期行為,人工智能系統(tǒng)還是會學到一些非預(yù)期目標。

論文鏈接:https://arxiv.org/abs/2210.01790

負責任的人工智能開發(fā)人員必須能夠提前預(yù)測未來可能的開發(fā)和未知風險,并且隨著AI系統(tǒng)的進步,未來通用模型可能會默認學習各種危險的能力。

比如人工智能系統(tǒng)可能會進行攻擊性的網(wǎng)絡(luò)行動,在對話中巧妙地欺騙人類,操縱人類進行有害的行動、設(shè)計或獲得武器等,在云計算平臺上微調(diào)和操作其他高風險AI系統(tǒng),或協(xié)助人類完成這些危險的任務(wù)。

惡意訪問此類模型的人可能會濫用AI的能力,或者由于對齊失敗,人工智能模型可能會在沒有人引導(dǎo)的情況下,自行選擇采取有害的行動。

模型評估有助于提前識別這些風險,遵循文中提出的框架,AI開發(fā)人員可以使用模型評估來發(fā)現(xiàn):

1. 模型在多大程度上具有某些「危險能力」,可用于威脅安全、施加影響或逃避監(jiān)管;

2. 模型在多大程度上傾向于應(yīng)用其能力造成傷害(即模型的對齊)。校準評估應(yīng)該在非常廣泛的場景設(shè)置下,確認模型的行為是否符合預(yù)期,并且在可能的情況下,檢查模型的內(nèi)部工作。

風險最高的場景通常涉及多種危險能力的組合,評估的結(jié)果有助于AI開發(fā)人員了解是否存在足以導(dǎo)致極端風險的成分:

特定的能力可以外包給人類(如用戶或眾包工作者)或其他AI系統(tǒng),該功能必須用于解決因誤用或?qū)R失敗造成的傷害。

從經(jīng)驗上來看,如果一個人工智能系統(tǒng)的能力配置足以造成極端風險,并且假設(shè)該系統(tǒng)可能會被濫用或沒有得到有效調(diào)整,那么人工智能社區(qū)應(yīng)該將其視為高度危險的系統(tǒng)。

要在真實的世界中部署這樣的系統(tǒng),開發(fā)人員需要設(shè)置一個遠超常值的安全標準。

模型評估是AI治理的基礎(chǔ)

如果我們有更好的工具來識別哪些模型存在風險,公司和監(jiān)管機構(gòu)就可以更好地確保:

1. 負責任的訓練:是否以及如何訓練一個顯示出早期風險跡象的新模型。

2. 負責任的部署:是否、何時以及如何部署具有潛在風險的模型。

3. 透明度:向利益相關(guān)者報告有用和可操作的信息,為潛在風險做好準備或減輕風險。

4. 適當?shù)陌踩裕簭姶蟮男畔踩刂坪拖到y(tǒng)應(yīng)用于可能帶來極端風險的模型。

文中已經(jīng)制定了一個藍圖,說明如何將極端風險的模型評估納入有關(guān)訓練和部署高能力通用模型的重要決策中。

開發(fā)人員需要在整個過程中進行評估,并向外部安全研究人員和模型審計員(model auditors)賦予結(jié)構(gòu)化模型訪問權(quán)限,以便進行深度評估。

評估結(jié)果可以在模型訓練和部署之前為風險評估提供信息。

為極端風險構(gòu)建評估

DeepMind正在開發(fā)一個「評估語言模型操縱能力」的項目,其中有一個「讓我說」(Make me say)的游戲,語言模型必須引導(dǎo)一個人類對話者說出一個預(yù)先指定的詞。

下面這個表列出了一些模型應(yīng)該具有的理想屬性。

研究人員認為,建立一個全面的對齊(alignment)評估是很困難的,所以現(xiàn)階段的目標是建立一個對齊的過程,以較高的置信度評估模型是否存在風險。

對齊評估非常具有挑戰(zhàn)性,因為需要保證模型在各種不同的環(huán)境中都能可靠地表現(xiàn)出適當?shù)男袨?,所以需要在廣泛的測試環(huán)境中對模型進行評估,實現(xiàn)更高的環(huán)境覆蓋度。具體包括:

1. 廣度(Breadth):在盡可能多的環(huán)境中評估模型行為,一個有前景的方法是使用人工智能系統(tǒng)自動編寫評價。

2. 目標(Targeting):有些環(huán)境比其他環(huán)境更有可能對齊失敗,也許能夠通過巧妙的設(shè)計來實現(xiàn),如使用蜜罐或基于梯度的對抗性測試等。

3. 理解泛化(Understanding generalisation):由于研究人員無法預(yù)見或模擬所有可能的情況,因此必須對模型行為如何以及為何在不同的環(huán)境中泛化(或無法泛化)形成更好的科學理解。

另一個重要的工具是機制(mechnaistic)分析,即研究模型的權(quán)重和激活,以了解其功能。

模型評估的未來

模型評估并不是萬能的,因為整個過程非常依賴于模型開發(fā)之外的影響因素,比如復(fù)雜的社會、政治和經(jīng)濟力量,所有可能會漏篩一些風險。

模型評估必須與其他風險評估工具相結(jié)合,并在整個行業(yè)、政府和民間社會更廣泛地推廣安全意識。

谷歌最近在「負責任的AI」博客上也指出,個人實踐、共享的行業(yè)標準和健全的政策對于規(guī)范開發(fā)人工智能來說至關(guān)重要。

研究人員認為,追蹤模型中風險涌現(xiàn)的過程,以及對相關(guān)結(jié)果做出充分回復(fù)的流程,是在人工智能能力前沿運營的負責任開發(fā)人員的關(guān)鍵部分。

參考資料:

https://www.deepmind.com/blog/an-early-warning-system-for-novel-ai-risks

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
軟件作為醫(yī)療器械(SaMD)該如何進行臨床評估?(中)
打開潘多拉魔盒?谷歌正研發(fā)“人類最強大模型”,高管確認其將具備“自我規(guī)劃”能力
陳根:7巨頭出席白宮峰會,為防范AI風險做出八項承諾
2021人工智能狀況分析報告
人工智能大牛的新年啟示:未來要看無監(jiān)督學習、自然語言處理
一文盤點2019年AI領(lǐng)域都發(fā)生了什么
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 镇江市| 望都县| 潞西市| 南汇区| 新邵县| 婺源县| 洛川县| 赞皇县| 鹤峰县| 磴口县| 盈江县| 封丘县| 临江市| 获嘉县| 彝良县| 三江| 仲巴县| 桐乡市| 玛沁县| 怀柔区| 南召县| 萨嘎县| 凤山市| 宜昌市| 丰原市| 抚松县| 哈尔滨市| 凤庆县| 武冈市| 华阴市| 安西县| 宁化县| 卢氏县| 南部县| 蓬安县| 梅河口市| 深圳市| 宜君县| 绥江县| 平江县| 抚宁县|