喬納森·瓦尼安 馮豐
2016年3月微軟推出Tay時(shí),非常看好這款人工智能聊天機(jī)器人。Tay不僅能回答事實(shí)性問題,還可以進(jìn)行更復(fù)雜的交流——Tay能表現(xiàn)出幽默感,像朋友一樣跟用戶說笑。宣傳材料中提到:你跟Tay聊得越多,她就越聰明,體驗(yàn)也會(huì)更個(gè)人化。但當(dāng)人們發(fā)現(xiàn)Tay會(huì)學(xué)習(xí)模仿交流對(duì)象的言語后,一些心懷惡意的人與Tay聊天時(shí)故意說一些具有侮辱和攻擊性的話。幾個(gè)小時(shí)后,Tay已是臟話連篇。上線不到24小時(shí),微軟就宣布下線產(chǎn)品并公開道歉。
Tay項(xiàng)目失敗之后,微軟人工智能項(xiàng)目總監(jiān)艾瑞克·霍維茨迅速讓技術(shù)團(tuán)隊(duì)研究“自然語言處理”項(xiàng)目,尋找問題根源。團(tuán)隊(duì)成員很快發(fā)現(xiàn),與聊天程序相關(guān)的最佳基本行為遭到忽視。在Tay之前的基礎(chǔ)版軟件里,經(jīng)常有屏蔽不良表述的協(xié)議,但此次并沒有保護(hù)措施限制Tay可能學(xué)習(xí)的數(shù)據(jù)。
如今,微軟在全球推出了更加成熟的聊天機(jī)器人,包括印度的Ruuh、日本和印度尼西亞的Rinna。在美國市場,微軟推出了Tay的姐妹聊天機(jī)器人Zo。中國市場的聊天機(jī)器人叫小冰,已經(jīng)開始主持電視節(jié)目,給便利店顧客提供購物建議。
然而,這次微軟明顯謹(jǐn)慎許多。霍維茨說,現(xiàn)在機(jī)器人推出得比較慢,而且公司會(huì)認(rèn)真觀察軟件發(fā)展過程中與大眾互動(dòng)的情況。不過微軟也清醒地意識(shí)到,即使人工智能技術(shù)在兩年里能獲得長足發(fā)展,管理機(jī)器人行為的工作也永無止境。微軟員工一直在監(jiān)視導(dǎo)致聊天機(jī)器人行為變化的對(duì)話。
從聊天機(jī)器人的上述缺陷能看出,哪怕只是部分應(yīng)用人工智能,潛在的禍患也會(huì)被放大。雖然商業(yè)世界已經(jīng)準(zhǔn)備好更廣泛地應(yīng)用人工智能,但該技術(shù)存在的問題,讓技術(shù)人員寢食難安。
所有人都相信,我們正處在企業(yè)人工智能大爆發(fā)的前夜。研究公司IDC預(yù)計(jì),到2021年,企業(yè)每年將在人工智能相關(guān)產(chǎn)品上花費(fèi)522億美元。經(jīng)濟(jì)學(xué)家和分析師都認(rèn)為,相關(guān)投資屆時(shí)可以實(shí)現(xiàn)數(shù)十億美元的成本節(jié)約和收益。其中一些收益將來自崗位壓縮,更多則來自產(chǎn)品與客戶、藥品與病人、解決方案與問題等之間的高效匹配。
人工智能技術(shù)之所以流行,主要因?yàn)樯疃葘W(xué)習(xí)系統(tǒng)的不斷發(fā)展。利用深度學(xué)習(xí),企業(yè)可以在電腦中輸入大量信息,讓深度學(xué)習(xí)系統(tǒng)梳理、分析數(shù)據(jù)。不久的將來,各種規(guī)模的公司都能通過應(yīng)用深度學(xué)習(xí)系統(tǒng)挖掘數(shù)據(jù),尋找人僅憑經(jīng)驗(yàn)很難發(fā)現(xiàn)的最佳商機(jī)、決策核心等。在科技主義者的設(shè)想中,公司可以用人工智能整合過去多年的數(shù)據(jù),更好地預(yù)測下一次大賣的機(jī)會(huì),藥業(yè)巨頭可以削減研發(fā)暢銷藥的時(shí)間,而汽車保險(xiǎn)公司也能通過錄入數(shù)萬億字節(jié)的事故報(bào)告,實(shí)現(xiàn)自動(dòng)理賠。
盡管人工智能系統(tǒng)潛力巨大,但它也有黑暗的一面。首先,系統(tǒng)的決策水平受到人類提供數(shù)據(jù)的限制。用來培訓(xùn)深度學(xué)習(xí)系統(tǒng)的數(shù)據(jù)雖在不斷完善,卻并不中立。成熟的算法掃描歷史數(shù)據(jù)庫后可能得出結(jié)論:白人男性最有可能當(dāng)上首席執(zhí)行官。無視偏見是人工智能系統(tǒng)的一項(xiàng)根本缺陷。
當(dāng)前應(yīng)用的強(qiáng)大算法“沒有為所謂公平進(jìn)行數(shù)據(jù)優(yōu)化,”加州大學(xué)伯克利分校技術(shù)倫理學(xué)教授迪爾德麗·穆里根表示,“只存在為完成某項(xiàng)任務(wù)進(jìn)行的優(yōu)化”。人工智能以前所未有的速度將數(shù)據(jù)轉(zhuǎn)化為決策,但穆里根表示,科學(xué)家和倫理學(xué)家發(fā)現(xiàn)很多情況下“數(shù)據(jù)并不公平”。
讓問題更加復(fù)雜的是,人工智能系統(tǒng)比之前應(yīng)用的傳統(tǒng)算法更加復(fù)雜,即便讓經(jīng)驗(yàn)最豐富的程序員理解人工智能系統(tǒng)做出某項(xiàng)決策的邏輯都十分困難。再者,由于系統(tǒng)的開發(fā)者們都在拼命保護(hù)數(shù)據(jù)和算法,擔(dān)心專利技術(shù)泄露導(dǎo)致利益受損,外部監(jiān)測機(jī)構(gòu)很難發(fā)現(xiàn)系統(tǒng)里存在什么問題。
近年來最典型的一次人工智能失控案例是,2016年美國大選前期,臉書的新聞推送中出現(xiàn)了假新聞。
社交媒體巨頭臉書并非故意散布假新聞,而是因?yàn)樾侣勑畔⒘鞯耐扑蜋C(jī)制并不會(huì)區(qū)分“真”和“假”,只會(huì)根據(jù)用戶個(gè)人興趣推送個(gè)性化內(nèi)容。臉書沒有公開算法的具體信息(涉及專利問題),但承認(rèn)計(jì)算時(shí)會(huì)參考其他興趣相近用戶閱讀和分享的內(nèi)容。結(jié)果是,假新聞一出現(xiàn)就吸引了網(wǎng)友們的注意,由此一傳十、十傳百,數(shù)百萬人的新聞信息流里都出現(xiàn)了假新聞。
臉書的例子正是個(gè)人選擇與人工智能發(fā)生惡性互動(dòng)的實(shí)例,但研究者更擔(dān)心人工智能誤讀整體數(shù)據(jù)。提米特·葛布魯曾在微軟等公司研究算法倫理,她對(duì)人工智能影響保險(xiǎn)市場的方式很擔(dān)心,因?yàn)樵诒kU(xiǎn)市場上人工智能與數(shù)據(jù)結(jié)合后可能導(dǎo)致少數(shù)群體受到不公正待遇。假設(shè)有一組汽車事故索賠數(shù)據(jù)顯示市中心交通事故發(fā)生率比較高,而市中心居住的少數(shù)族裔人數(shù)比較多。如果人工智能系統(tǒng)獲取了相關(guān)數(shù)據(jù),可能認(rèn)為少數(shù)族裔與車禍之間存在聯(lián)系,還可能給少數(shù)族裔司機(jī)貼上某種標(biāo)簽。簡單來說,人工智能可能出現(xiàn)種族偏見。如果進(jìn)一步回顧市中心附近車禍現(xiàn)場的照片和視頻,人工智能系統(tǒng)更有可能認(rèn)為,在涉及多名司機(jī)的事故中,少數(shù)族裔司機(jī)肇事的可能性更大。系統(tǒng)還可能建議向少數(shù)族裔司機(jī)收取更高保費(fèi),不管他之前的駕駛記錄如何。
隨著科技巨頭們準(zhǔn)備將人工智能系統(tǒng)嵌入其客戶商業(yè)軟件,上述問題便從學(xué)術(shù)界所討論的“假如”命題變成急需考慮的事情。這一挑戰(zhàn)的關(guān)鍵之處在于,科技公司所面臨的兩難境地并不在于創(chuàng)建算法或聘請(qǐng)員工來監(jiān)視整個(gè)過程,而是在于人性本身。真正的問題并不在于技術(shù)或管理,而是關(guān)乎哲學(xué)。
技術(shù)倫理學(xué)教授迪爾德麗·穆里根指出,計(jì)算機(jī)科學(xué)家很難將“公平”編入程序,因?yàn)楣降囊饬x會(huì)因人群的不同而發(fā)生變化。穆里根還指出,社會(huì)對(duì)于公平的認(rèn)知會(huì)隨著時(shí)間的變化而改變。而且對(duì)于大家廣泛接受的理想狀態(tài)的“公平”理念,也就是社會(huì)決策應(yīng)體現(xiàn)社會(huì)每位成員的意志,歷史數(shù)據(jù)存在缺陷和缺失的可能性尤為突出。
谷歌云計(jì)算部門的人工智能首席科學(xué)家李飛飛表示,技術(shù)偏見“如人類文明一樣由來已久”,而且存在于諸如剪刀、扳手這類普通事物當(dāng)中。她解釋說:“幾個(gè)世紀(jì)以來,剪刀都是由右撇子的人設(shè)計(jì)的,而且使用它的人大多都是右撇子。直到有人發(fā)現(xiàn)這一偏見,才意識(shí)到人們有必要設(shè)計(jì)供左撇子使用的剪刀。”全球人口中僅有約10%是左撇子,作為人類的一種天性,占主導(dǎo)地位的多數(shù)人群往往會(huì)忽視少數(shù)人群的感受。
事實(shí)證明,人工智能系統(tǒng)最近所犯的最為明顯的過錯(cuò)也存在同樣的問題。我們可以看看俄羅斯科學(xué)家利用人工智能系統(tǒng)在2016年開展的選美大賽。為參加競賽,全球有數(shù)千人提交了自拍照,其間,計(jì)算機(jī)根據(jù)人們臉部對(duì)稱性等因素來評(píng)價(jià)其美貌程度。然而,在機(jī)器選出的44名優(yōu)勝者當(dāng)中,僅有一名是深色皮膚。這一結(jié)果讓全球輿論嘩然,競賽舉辦方隨后將計(jì)算機(jī)的這一明顯偏見歸咎于用于培訓(xùn)電腦的數(shù)據(jù)組,因?yàn)閿?shù)據(jù)組中的有色人種的照片并不多。計(jì)算機(jī)最終忽視了那些深色皮膚的人的照片,并認(rèn)為那些淺膚色的人更加漂亮,因?yàn)樗麄兇碇鄶?shù)人群。
這種因忽視造成的偏見,在人工智能系統(tǒng)中尤為普遍。在這些系統(tǒng)中,圖片識(shí)別是培訓(xùn)過程的重要組成部分。此類算法空白在線上選美比賽中看起來可能是微不足道的事情,但葛布魯指出,此類技術(shù)可能被用于更加高風(fēng)險(xiǎn)的場景。葛布魯說:“試想一下,如果一輛自動(dòng)駕駛汽車在看到黑人后無法識(shí)別,會(huì)出現(xiàn)什么后果。想必后果是非常可怕的。”
葛布魯?shù)挠^點(diǎn)激起了不小的浪花。微軟和IBM均表示,公司已采取針對(duì)性的措施來完善其圖片識(shí)別技術(shù)。盡管這兩家公司拒絕透露其舉措的詳情,但正在應(yīng)對(duì)這一問題的其他公司則讓我們窺見了如何利用科技來規(guī)避偏見。
亞馬遜在部署用于篩除腐爛水果的算法時(shí),公司必須解決抽樣偏見問題。人們通過研究大量的圖片數(shù)據(jù)庫來培訓(xùn)視覺辨認(rèn)算法,其目的通常是為了識(shí)別,例如,草莓“本應(yīng)”具有的模樣。然而,正如你所預(yù)料的那樣,與完好漿果光鮮亮麗的照片相比,腐爛漿果的照片相對(duì)較少。而且與人類不同的是,人工智能系統(tǒng)傾向于不計(jì)算或忽視它們,而人類的大腦則傾向于注意這些異常群體,并對(duì)其做出強(qiáng)烈反應(yīng)。
亞馬遜的人工智能總監(jiān)拉爾夫·荷布里奇解釋道,作為調(diào)整,這家在線零售巨頭正在測試一項(xiàng)名為“過采樣”的計(jì)算機(jī)科學(xué)技術(shù)。人工智能工程師可通過增加不具充分代表性的數(shù)據(jù)的統(tǒng)計(jì)學(xué)權(quán)重,來主導(dǎo)算法的學(xué)習(xí)方式。在上述案例中便是腐爛水果的照片。結(jié)果顯示,培訓(xùn)后的算法更為關(guān)注變質(zhì)食物,而不是數(shù)據(jù)庫中可能建議的食品關(guān)聯(lián)性。
荷布里奇指出,過采樣也可被應(yīng)用于分析人類的算法(然而他拒絕透露亞馬遜在這一領(lǐng)域的具體案例)。荷布里奇說:“年齡、性別、種族、國籍,這些都是特別需要測試采樣偏見的領(lǐng)域,以便今后將其融入算法。”為了確保用于識(shí)別人臉照片的算法不會(huì)歧視或忽視有色、老齡或超重群體,人們可以為此類的照片增加權(quán)重,以彌補(bǔ)數(shù)據(jù)組存在的缺陷。
其他工程師正專注于進(jìn)一步“追根溯源”——確保用于培訓(xùn)算法的基本數(shù)據(jù)具有包容性,且沒有任何偏見。例如,在圖形識(shí)別領(lǐng)域,在錄入計(jì)算機(jī)之前,人們有必要對(duì)用于培訓(xùn)人工智能系統(tǒng)的數(shù)百萬張圖片進(jìn)行審核和標(biāo)記。數(shù)據(jù)培訓(xùn)初創(chuàng)企業(yè)iMerit首席執(zhí)行官雷德哈·巴蘇解釋,公司遍布于全球的1400多名訓(xùn)練有素的員工會(huì)代表其客戶,以能夠規(guī)避偏見的方式對(duì)照片進(jìn)行標(biāo)記。iMerit在印度的員工可能會(huì)覺得咖喱菜不是很辣,而公司位于新奧爾良的員工可能會(huì)認(rèn)為同樣的菜很辣。iMerit會(huì)確保這兩條信息均被錄入這道菜照片的標(biāo)記中,因?yàn)閮H錄入其中的一個(gè)信息會(huì)讓數(shù)據(jù)的精確性打折扣。在組建有關(guān)婚姻的數(shù)據(jù)組時(shí),iMerit將收錄傳統(tǒng)的西式白婚紗和多層蛋糕圖片,同時(shí)還會(huì)收錄印度或非洲精心策劃、色彩絢麗的婚禮。巴蘇表示:“良好的倫理政策不僅僅包含隱私和安全,還涉及偏見以及我們是否遺漏了某個(gè)觀點(diǎn)。”而找出這個(gè)遺漏的觀點(diǎn)已被更多科技公司提上了戰(zhàn)略議程。
然而,在這一代更加多元化的人工智能研究人員進(jìn)入勞動(dòng)力市場之前,大型科技公司已然將人工智能系統(tǒng)融入其產(chǎn)品。而且即便頂級(jí)研究人員越發(fā)意識(shí)到該技術(shù)的缺陷,并承認(rèn)他們無法預(yù)知這些缺陷會(huì)以什么樣的方式展現(xiàn)出來,他們?nèi)匀徽J(rèn)為人工智能技術(shù)在社會(huì)和金融方面的效益,值得他們繼續(xù)向前邁進(jìn)。
臉書高管坎德拉說:“我認(rèn)為人們天生便對(duì)這種技術(shù)的前景持樂觀態(tài)度。”他還表示,幾乎任何數(shù)字技術(shù)都可能遭到濫用,但他同時(shí)也指出:“我并不希望回到20世紀(jì)50年代,體驗(yàn)當(dāng)時(shí)落后的技術(shù),然后說:‘不,我們不能部署這些技術(shù),因?yàn)樗鼈兛赡軙?huì)被用于不良用途。”
確實(shí),很少有人依然持有“人工智能絕對(duì)可靠”的觀點(diǎn),這是一個(gè)進(jìn)步。谷歌前任人工智能公共政策高管蒂姆·黃指出,在互聯(lián)網(wǎng)時(shí)代初期,科技公司可能會(huì)說,他們“只不過是一個(gè)代表數(shù)據(jù)的平臺(tái)而已”;如今,“這一觀點(diǎn)已經(jīng)沒有市場”。
(留 痕摘自財(cái)富中文,www.fortunechina.com,〔意〕馬爾科·馬里倫戈圖)