來源:cs.princeton.ed
編輯:小芹、大明
AI不是萬靈藥,但越來越多的人把它說成是萬靈藥,在這些人的鼓吹下,更多的人可能真的會把AI當成萬靈藥。
那么,如何在周圍人都在吹的氛圍下冷靜下來,分辨真假?近日,普林斯頓大學計算機系Arvind Narayanan副教授撰寫了一份報告,題目就是《如何區分AI“萬靈假藥”》。
報告全文要點如下:
1、有很多與AI無關的東西都被打上AI標簽,目前已經誕生的真正的、有社會影響力的AI技術無意間充當了這些冒牌貨的保護傘。
2、很多宣稱采用AI算法的技術涉及對社會后果的預測。事實是,我們并不能預測未來,但當涉及AI時,這個常識似乎就我們無視了。
3、在風險行為預測上,手動評分要比AI評分靠譜得多。比如違規駕駛,人工計分,到一定程度吊銷駕照,這個計分還是要交給人來做。
作者首先舉了個例子。下邊這個網站宣稱,只用一段30秒的短視頻,就能評估出你的職業前途和工作的穩定程度。聽起來是不是很神奇?只要拍一段視頻傳上去,網站就會自動評估出多個指標,可視化呈現后給出一個綜合評分。
它聲稱,評估分數結果和視頻中的你說的內容甚至都沒關系,完全是AI算法根據肢體語言、講話的方式和風格這些東西得出的。
而實際上,這只是個加了外殼的“隨機數生成器”。你的職業是否穩定,全看運氣。
為什么這種包裝成AI的假貨這么多?
第一、 現在的“AI”是個時髦的保護傘,和AI沾邊可以提升身價。
第二、 一些AI技術確實實現了真正的、獲得大眾認可的巨大進步。
第三、 大部分群眾不懂AI,企業可以把任何東西貼上AI標簽,再賣出去。
這個例子只是說明在HR領域的問題,實際上在其他領域內,這種對AI技術的故意夸大的現象可能更嚴重。在這份報告中,作者將現在的AI應用模式大體分為3類。
第一類:認知類AI技術。主要包括內容識別(包括反圖片搜索)、人臉識別、基于醫療影像的輔助診斷、文本-語音轉換,以及DeepFake等。作者認為,這類技術基本上屬于貨真價實的快速技術進步,甚至DeepFake的過于逼真表現還引發了人們在道德上的擔憂。
作者認為,這類AI技術造假或吹牛空間不大的主要原因是結果和判斷標準的確定性。無論是人臉識別還是文本-語音轉換,其對錯標準是非常明確的。
第二類:自動化判斷類AI技術。包括垃圾郵件檢測、盜版內容檢測、論文自動評分、內容推薦等。這類應用盡管還遠遠稱不上完善,但是正在進步,應用前景在逐步拓寬。
對于這類AI來說,判斷標準開始變得有些模糊,一篇文章寫得好不好,一封電郵是不是垃圾郵件,對于這些問題,不同的人可能會有不同的看法,AI會逐步學習人類的判斷和推理方式,但往往免不了犯錯。
第三類:社會后果預測類AI。包括職業表現預測、慣犯行為預測、政策預測、恐怖襲擊預測等。作者認為,這類AI基本上其真實性都是值得懷疑的。
作者認為,在我們自己尚且不能預測未來的情況下,卻要把這個任務交給AI,并根據結果來制定政策,這種選擇有違常識,而且很可能造成不良后果。
AI預測社會后果?效果比線性回歸好不了多少
第三類AI應用有關預測社會后果,它們大多數時候從根本上就是可疑的:
預測犯罪慣犯
預測工作表現
預測警務
預測恐怖主義風險
預測問題兒童
Shazam(一款音樂識別應用)
反向圖片搜索
人臉識別
基于醫學成像的醫療診斷
語音轉文本
Deepfakes
垃圾郵件檢測
版權侵犯
自動論文評分
仇恨語音檢測
內容推薦
預測累犯
預測工作成功
預測警務
預測恐怖主義風險
預測問題兒童
“脆弱家庭(未婚家長與孩子組成的家庭)與孩子福利”項目跟蹤研究了1998-2000年出生在美國大城市的近5000名兒童(大約四分之三是未婚父母所生),這些兒童所在的“家庭”比普通家庭面臨更大的分裂和貧困的危險。研究圍繞四個方面展開:(1)未婚父母,尤其是父親的條件和能力是什么?(2)未婚父母關系的本質是什么?(3)這些家庭出生的孩子是怎樣生活的?(4)政策和環境條件如何影響這樣的家庭和兒童? 該項目的人口研究數據檔案辦公室公開提供六組相關數據。
孩子的平均成績(學業成績)
孩子們的勇氣(激情和毅力)
家庭的物質困難(衡量極端貧困的程度)
驅逐家庭(不支付租金或抵押)
照顧者的裁員
工作培訓(如果主要照顧者將參加工作技能計劃)
對個人數據的需求
權力從領域專家大規模轉移到不負責任的科技公司手中
缺乏可解釋性
影響干預
準確性流于表面
……
人工智能擅長某些任務,但無法預測社會后果。
我們必須抵制意圖混淆這一事實的巨大商業利益。
在大多數情況下,手動評分規則同樣準確,更加透明,值得考慮。