【AI100 導讀】你知道嗎?早在十多年前,Google 就已經在內部教自己的工程師機器學習的相關知識了。本篇文章將告訴你 Google 是如何使用機器學習來不斷優化產品,從而使其成為最優秀的人工智能公司之一的。
如果你想讓自己的產品走向人工智能的道路,你最好重構你的代碼,然后檢查一遍!
卡爾森·霍爾格特(Carson Holgate)正在接受訓練,意欲成為一名忍者。
但是此次接受的訓練并不是武術領域的訓練——卡爾森·霍爾格特早就已經通過了武術訓練。霍爾格特如今26歲,已經達到跆拳道黑帶二級了。關于本次她接受的訓練,實際上是在算法領域。她已經在一個項目上花費了數周的時間,接下來將會參加比體能對抗強度更大的訓練——機器學習(ML)。霍爾格特是谷歌公司安卓方向的一名工程師,本次共有18名程序員被選中參加年度機器學習忍者項目(Machine Learning Ninja Program),霍爾格特就是其中之一。該項目的目標是從團隊中挑選出才華橫溢的程序員參加《安德的游戲》(Ender’s Game-style)項目。本次訓練中,他們要學習人工智能的相關技術,使其研發的產品更加智能。即便是創造軟件,他們也要將其升級得更加復雜難懂。
Carson Holgate,Google的一名工程師,現在正在進行機器學習的忍者訓練
“我們的宣傳口號是:你是否愿意成為一名機器學習忍者?”Christine Robson 說。克里斯汀是谷歌內部機器學習報告的產品經理,主要負責協助管理項目。“所以我們邀請谷歌內部員工加入,在機器學習團隊中深入地學習六個月。他們會在導師的指導下,扎實地學六個月,做些項目,讓項目啟動并在這個過程中不斷學習。”
霍爾格特擁有電腦科學和數學雙學位,畢業后在谷歌公司工作已經將近四年了。對于他來說,這是一個近距離接觸軟件領域最熱的范例的好機會:運用學習算法(也就是學習者)和龐大的數據“教“應用軟件完成任務。多年以來,機器學習一直被認為是精英階層的專屬領域。如今時代變了,最新的研究結果表明,由”神經網絡“驅動的機器學習,可以模仿生物大腦的運行模式。通過灌輸知識將電腦打造成人腦的想法(如超級大腦)是行得通的。
谷歌正在致力于打破所謂的精英圍墻,讓機器學習變得大眾化。對于霍爾格特這樣的工程師來說,忍者項目就是邁向技術最前沿的良機,從最優中學習最優。“這些人都有博士學位,同時還在建立這些難以置信的模型”,她說話的時候敬畏之情溢于言表。她已經度過了最初的困難期,現在正置身項目之中,成為其一員被叫做“忍者“了。”最初我想打退堂鼓,但是我學會了接受現實。“她說。
谷歌員工數目眾多,6萬多名員工中近一半是程序員。比較起來,忍者計劃的規模實際上是很小的。但是這個項目卻標志著公司在認知層面上的轉變。盡管機器學習一直都是谷歌公司技術的一部分,谷歌也一直在募集相關領域的專家,但是自2016年以來谷歌幾乎癡迷于這個領域分支了。在去年下半年的一次電話會議中,谷歌 CEO Sundar Pichai 提出了公司的發展思路:““機器學習對于我們反思行為模式是至關重要的,它是變革性的。我們在考慮將其應用于所有的產品中,包括核心搜索、廣告、Youtube 以及谷歌游戲中心等。雖然還是在實驗初期,但是總有一天,我們會把機器學習系統化地應用于所有領域。”
誠然,如果谷歌想將機器學習應用于所有產品中的話,必需要有相關技術的工程師,機器學習與傳統的編程是不同的。著名機器學習宣言“The Master Algorithm”的作者 Pedro Domingos 在書中提到的:”機器學習是一項新的事物:它能自己構建自己。” 想寫出這樣的系統程序需要識別出正確的數據,選擇正確的算法,同時確保建立起正確的環境才能最終獲得成功。之后的工作(也是對于程序員來說很難的一步)就是要信任系統可以完成任務。
“按這種方式思考解決問題的人越多,我們就會越成功。”機器學習領域的領導人 Jeff Dean 這樣說。在 Tom Brady 打進美國橄欖球聯盟成為一名四分衛之時,杰夫·迪安就已經在谷歌編軟件了。據他估計,如今微軟雖然有25,000名工程師,但其中大約只有幾千名工程師是精通機器學習的,大概也就占10%。他希望這個數據有朝一日可以接近百分之百。“如果我們的每一位工程師都能掌握一些機器學習的知識就好了”他如是說。
他的愿望會實現么?
“我們正在努力”,他這樣回答。
這些年來,John Giannandrea 一直擔任谷歌公司機器學習的關鍵推廣人。根據公司熒光顯示屏上的公示,最近他又成為了核心搜索部分的帶頭人。2010年他剛來到公司的時候(當時谷歌并購了 Metaweb,原公司的員工,辦公室和所有產品都并入了谷歌核心搜索部,現在成為知識圖像分支),當時他對機器學習或者神經網絡都沒有任何概念。大概在2011年的時候,一個叫作神經信息處理系統(NIPS)的會議給了他啟發靈感。似乎每年在這個會議上,都會有一些團隊宣布自己運用機器學習來解決某些問題,如翻譯、聲音識別、圖像識別等,其中的一些嘗試讓人印象深刻。這時,神奇的事情發生了。’當我第一次參加這個會議的時候,我覺得人工智能前途渺茫 ”,他說,’但在過去三年時間里,整個行業(不管是學術領域還是工業領域)忽然就崛起了。據我所知,去年大概有6000人參加 NIPS 會議。”
Jeff Dean:規范的Google計算機科學家,現在在構建機器學習的工具并領導機器學習的團隊。
這種態勢使神經網絡算法得到了改進和提高,同時,摩爾法則效應使得更多有效的計算機算法出現,谷歌和 Facebook 公司龐大用戶群體的行為數據呈指數式暴漲,開啟了優勢機器學習的新紀元。他相信參加大會的都是公司的高層,其中就包括谷歌大腦的聯合創始人安迪。谷歌大腦是谷歌X(現在以此代號而熟知)遠程學習分部的一個神經網絡項目。
谷歌對于機器學習如此狂熱的態度并不僅說明了程序技術的轉變,還很嚴肅地賦予了大腦前所未有的權力。該領域最前沿的技術是“深入學習”算法。它是受到大腦構造的啟發建立起來的復雜的神經網絡。谷歌大腦就致力于搜索深入學習。谷歌于2014年1月以5億美金的價格收購的 DeepMind 公司也致力于相關領域的研究。DeepMind 公司創造了 AlphaGo 系統,也就是那個大名鼎鼎的在人機圍棋大戰中獲勝的系統。它的成功給了那些對智能機器表現不抱期望的人一個良好的回擊·,也撼動了那些對智能機器和機器人殺手有顧慮的人。當吉安德里亞擊碎“AI 即將滅亡”組織的邪惡預言時,他對機器學習系統帶來的轉變性效果十分滿意,不管是在醫學診斷還是在駕駛汽車上。盡管機器學習并不會取代人類,但是它卻會確確實實地改變人類的生活。
Giannandrea 引用了谷歌相片的例子來證明機器學習的效力。谷歌相片最離奇或者說最困擾人的一大特點就是它可以定位出用戶指定的圖像。讓我來看一下博德牧羊犬的照片。’當人們第一次看到這個功能的時候,他們以為會發生不同的事情。因為電腦并不只是給你算出一個你的偏好或者是給你推薦一個視頻那么簡單了” ,他說,“電腦慢慢理解了圖片里的內容 ”。他解釋說,電腦通過學習能夠 “知道” 博德牧羊犬的樣子,然后它會按照這個樣子尋找類似的有些老、毛又很長經過剪絨的小狗。當然,人也是可以這樣做的。
但是沒有人可以同時從一百萬張圖片中辨認出一萬種不同品種的狗,而機器學習系統可以。只要它學習了其中一個品種,它就能用同樣的方法識別其他9999種狗。“這才是真正新鮮的地方”,他說,“從狹義上來講,你所看到的就是這些學習系統中被某些人稱之為超級人類行為的表現。”當然了,谷歌一直都深諳機器學習的定義,它的創始人是人工智能力量的終生追隨者。雖然植入的可能不是最先進的并與神經網絡相關的技術,但機器學習確實已經被植入到許許多多的谷歌產品中(早期的機器學習一般依賴更為直觀的數據方法)。
事實上,在十年前,谷歌已經在內部教自己的工程師機器學習的相關知識了。早在 2005 年年初,研究分支的相關負責人 Peter Norvig 就曾向一位名叫 David Pablo Cohn 的研究科學家提議,讓他來評估一下谷歌可否引入一門卡耐基梅隆大學(Carnegie Mellon University)的相關課程。科恩最后的結論是:只有來自谷歌的員工才可以教授相關的課程,因為谷歌的運行機構是他人無法模仿的(大概只有國防部可以與之媲美)。因此彼得預約了43號樓(當時還是研究團隊大本營)的一間大教室,每周三舉辦一次為期兩小時的課程,包括 Jeff Dean 等在內的人均參加過其中幾期的課程。“這是世界上最棒的課”,科恩這樣說,“他們都是比我還要成功的工程師!”這門課程在當時風靡一時,上課的人太多了。為了能聽這門課,班加羅爾分部的員工甚至守到午夜零點。幾年之后,一些谷歌員工把當時上課的情況制成了視頻;面對面授課的形式得以結束。科恩相信這是大規模開放在線課堂的起始。之后幾年谷歌又開展了幾輪不同的機器學習培訓,但都不如當初那樣組織良好且課程連續了,也不是當初的大班上課的形式。2013年科恩離開谷歌,用他自己的話來說,那時候正好是“機器學習突然在谷歌變成無比重要的事情”的時候。2012年的時候還沒有這種流行的概念,吉安德里亞有一個想法”把這件事的人都聚到一起”,把他們都放在一座單獨的大樓里。從X 分支獨立出來的谷歌大腦團隊也加入其中。’我們把一群團隊連根拔起,把他們放到一座大樓里,再放一些新的咖啡機” 他這樣說。“那些之前在從事與我們所謂的知覺相關工作的人,就是那些研究聲音演講理解的人,開始和研究預言的人在一起交流了。”
那些工程師研究出的機器學習成果開始在越來越多受歡迎的谷歌產品中體現出來。因為主要的機器學習領域集中在圖像視覺、演講、聲音識別和翻譯上,所以自然而然地,機器學習在很大程度上都是在研究聲音搜索、翻譯和照片。但是現在它在大規模向所有領域進發。Dean 說他和他的團隊已經開始了解更多的機器學習的知識,比原來他們探索時期了解的更多,更雄心勃勃。“之前,我們通常只將機器學習用于系統中的次要部分“,他說,”但是現在我們要用機器學習來代替整套的系統了,不再單單局限于系統的某一部分。“Dean 表示,如果他現在還有機會重寫谷歌公司的內部結構的話,對于 BigTable、Map Reduce 等游戲挑戰系統(Dean 是聯合創作者之一),他很可能會采用機器學習的方法,而不是當初的編程方式。
Google Brain的聯合創始人Greg Corrado與產品團隊合作,將AI融合到自己的軟件中
同時,機器學習也讓之前一些難以想象的產品特征變得有可能。其中一個例子就是,谷歌于2015年11月所推出的智能郵件回復功能。這一功能源于谷歌大腦項目的聯合創始人 Greg Corrado 和一名名叫 Bálint Miklós 的谷歌郵件工程師之間的一次對話。克拉多早前在郵件團隊工作,致力于用機器學習算法來識別垃圾郵件并對郵件進行分類,但隨后米克洛斯提出了一個看似瘋狂的想法:如果團隊能用機器學習來自動回復郵件會怎么樣呢?這不就能讓那些手機用戶從窄小的鍵盤回復中解脫了出來么!“我當時大吃一驚,因為我覺得這個想法有點瘋狂。“克拉多回憶說,”但之后我細想了一下,我們已經在研究預言式神經網絡技術,它其實是可以實現的。一旦意識到有可能實現,我們就會去嘗試。“
谷歌很支持這個想法,讓克拉多和他的團隊與谷歌郵件開發小組保持緊密及時的聯系。如今,機器學習專家深入各產品團隊的現象越來越普遍。“機器學習簡直就是科學里的藝術,“克拉多說,“就和做飯一樣——要想得到有趣的化學反應結果,你需要知道如何調制手頭的佐料。”傳統的研究語言理解的人工智能方法依賴于系統中語言的嵌入規則,但是在這個項目中,全部都是現代化的機器學習。機器學習系統能自己吸收學習的知識,就像一個小孩子一樣。
“我沒有學習如何像一個語言學家一樣講話,我都是聽其他人的對話學來的”,克拉多說。但真正讓智能回復變得可行的,是它的成功與否很容易就能被定義出來——并不是說要創造一個虛擬的達科他·喬納斯來和你調個情又喋喋不休,而是要讓現實生活的郵件中實現可以以假亂真的回復。“成功的標志就是,機器能夠生成一個候選回答,而這個答案人們覺得可以用于郵件的真人回復中,”他說。這個系統是通過用戶在提供的回復中不停打對勾選擇實現的。
最初團隊開始測試郵件的智能回復功能時,用戶會注意到一個奇怪的現象:總是在推薦那些不怎么不恰當卻非常浪漫的表達方式。“我們有一個失敗的模型,人們總是想歇斯底里地說‘我愛你‘,這就很尷尬了,”克拉多說,“這并不是軟件程序上的錯誤——錯誤在于我們的要求。” 這個程序不知怎地學會了一個很微妙的人類行為:“如果你被逼的走投無路,說’我愛你‘是一個很好的自我防衛使的回應方式。”克拉多已經幫助團隊克制住這種熱情了。
谷歌去年十一月推出的智能回復功能炙手可熱。手機軟件谷歌郵件收件箱的用戶現在都會習慣性地在三個候選郵件回復中選擇其一,只需輕輕一點。有時候這些手機用戶會對候選郵件的內容十分驚訝。如今在手機用戶所發送的回復中,有十分之一是由機器學習系統所創建的。“我依然有點不相信它的存在”,克拉多笑了一下。
智能回復只是機器學習中的冰山一角,谷歌已經證實了其有效性。但是,只有當機器學習真正成為搜索、谷歌標桿產品、字體以及所有可變現產品的一部分的時候,終極的轉折點才會到來。在一定程度上,搜索功能已經依賴于人工智能了。但是多年以來,谷歌公司引以為傲被尊崇的算法是那些曾經可以對核心搜索查詢進行回應的“十個藍色鏈接”,它們對于機器學習算法至關重要。“因為該搜索是公司的重要組成部分,它的級別非常之高。因此會有很多查詢你需要非常小心行事。” 吉安德里亞如是說。
這里有一個文化阻礙——那些有控制欲的技術黑客通過 zen-ish 機器學習的方法來挑戰頑固的微觀世界。Amit Singhal 長期致力于搜索的研究,曾是傳奇電腦科學家 Gerald Salton 的助手。杰拉德在文件核心研究領域的先驅成果為森海爾帶來很多啟發,使森海爾幫助改寫了 Brin 和 Page 的研究生代碼,與現代互聯網時代相適應(這就是后來在學校應用的“獵犬”程序。)
他曾嘲笑用20世紀的老方法所得到的結果,同時對谷歌的重要決策——讓學習者聚集到復雜系統中——持懷疑態度。“在谷歌的工作的頭兩年,我工作的部門是搜索質量部,致力于利用機器學習提高排名。”David Pablo Cohn 說,“結果證明 Amit 的直覺是全世界最棒的。在他的指導下,我們的工作做的越來越好了。他的方法是我們能找到的最好的方法。”
在 2014 年早期的時候,谷歌的機器學習大師認為應該有所改變。“我們與等級評估團隊進行了一系列的討論,” Dean 說,“我們當時說至少應該嘗試一下,看看所做的改變是否行得通、能不能有所收獲。”。他的團隊所構思的實驗最終成為了搜索的核心:排列的文件與查詢的匹配度有多高(這是通過用戶的點擊數來決定的)。“正如剛才說的那樣,我們試圖將這個額外的評分錄入到神經網絡之中,看看它是不是一個有效的評分規則。”
最終的結果是肯定的,這個體系現在已經成為了搜索的一部分,叫做 RankBrain,于2015年4月正式上線。谷歌對于它到底對搜索起了多大的推進作用對外表示的十分模糊(這和長尾理論有關?或者說是野心的另一種解讀?但是 Dean 表示,這個體系 “涉及到了查詢的方方面面”,同時又影響著實際的排行,可能不是每一次都受影響,但起碼大部分查詢都會受到影響。更為重要的是,它非常之有效。在谷歌搜索計算排行使用的數百個“信號”(一個信號可能是用戶的私立位置,或者是和查詢文字想匹配的網頁頭條)中,RankBrain現在被評為第三重要的體系。
“成功地利用機器學習讓搜索變得更好,這對于公司來說意義重大。”吉安德里亞說,“這吸引了很多人注意力。” 著有《大師算法》一書的華盛頓大學教授 Pedro Domingos 以一種獨特的方式解讀道:“長久以來,獵犬派和機器學習派一直爭論不休,但機器學習最終獲得了勝利。”
谷歌面臨的新挑戰是轉移工程師的工作能力,以使每位工程師都能熟悉機器算法,即使不精通也沒關系。這也是很多其他公司當下正在追求的目標,包括 Facebook。Facebook 對機器學習和深度學習的癡迷程度完全不亞于谷歌公司。搶奪相關領域的畢業生的競爭是十分激烈的,谷歌一直想保持領先的地位;多年以來,業內一直有一個笑話說谷歌即使在不需要的情況下也會雇傭最頂尖的學生,只是為了不在這場人才的競爭中輸掉。(可惜這個笑話忽略了一個事實,那就是谷歌確實需要這些人才。)“我的學生,無論是誰,都能從谷歌獲得一份工作。“多明戈這樣說。這一情況現在變得更加嚴峻了:就在上周,谷歌宣布在蘇黎世建立一個全新的機器學習研究實驗室,急需大量的勞動力。
但由于學術課程還沒有培養出大量的機器學習專家,對現有員工的再教育就顯得尤為重要了。當然這項工作并不輕松,特別是對于谷歌這樣的公司,這里有很多世界頂尖的工程師,他們終其一生都在致力傳統編程的研究。
機器學習需要的是完全不同的思路。傳統的編程大師可能對其有點難以接受,因為他們喜歡完全掌控的感覺,而這種感覺只有通過編程一個完整體系來實現。同時機器學習也需要相關領域的數學和統計學知識,但是對于許多程序員乃至愚蠢的黑客來說,由于他們能夠解開巨人長度的復雜程序,所以不愿去學習。
Christine Robson致力于向Google員工和其他人傳授機器學習的技巧
當然這也需要一定的耐心。“機器學習模型并不是一系列的靜態的數字編碼,你需要不停地提供給它新的數據,” 羅賓孫說,“我們在不停地升級模式并使其學習,同時不停增加更多的數據,盡可能的預測接下來要做的事情。這聽起來就像是一個有血有肉有生命的東西一樣。這是完全是一種不同的編程手段。”
“它的規則真的和其他算法的實踐模式完全不同,或者說和現在的使用案例中懸鏈數據工作模式完全不同。”吉安德里亞說。吉安德里亞如今不僅是搜索團隊的帶頭人,還在積極推廣機器學習。“電腦科學部分永遠不會消失。但是我們真的應該更關注一下數學和統計學,少花點注意力在那50萬行的代碼上。”
谷歌目前最主要的需要跨過的障礙就是智能再訓練。“終有一天,數學在這些模型中的應用將不會那么復雜”Dean 說,“我們谷歌雇傭的軟件工程師絕大多數都可以掌握。”為了能夠更多地增加機器學習的專家骨干,谷歌已經建立了一套有效的工具,以幫助工程師在選擇訓練自己的算法時做出正確的選擇,同時這套系統還能幫助加速神經網絡的建立。TensorFlow 是谷歌大腦計劃的一部分,是由 Dean 和他的同時 Rajat Monga 共同創立的。通過標準化作用,系統中晦澀難懂的步驟和細節將會逐漸被大家所接受和理解——特別是谷歌在2015年11 月將之公布于眾之后。
在谷歌嘗試將它作為一項利他福利惠及其他社區時,它也意識到,在招聘時直接招聘一批了解機器學習工具的新一代程序員將會是個很好的主意。(已經有質疑說谷歌的開放式資源 TensorFlow 是為了追趕 Facebook,在此之前,Facebook 曾于2015年1月公開了其機器學習系統 Torch。)當然,TensorFlow 的特征得到了谷歌的許可,并迅速成為了機器學習程序圈的大熱門。據吉安德里亞說,當谷歌第一次開放該課程的時候,有75,000人報名參加了。
當然谷歌還是為自己的程序員保留了不少好東西。在公司內部,谷歌有一套關于機器學習修補學的無與倫比的工具箱,已經使用了很多年,只不過到最近才被公開。這個工具箱叫做張量處理單元。這是一個微型處理芯片,可以對特定的機器語言程序進行優化,方法與為了加速顯示屏上像素處理而單獨設計的圖像處理單元是一個道理。幾千個單元(當然只有上帝和拉里·佩琪知道到底有多少)安插在公司龐大的數據中心的服務器中。通過對神經網絡操作的超級控制,TPU 給谷歌建立了一個極大的優勢。“沒有它我們就實現不了 RankBrain。”Dean 說。
但是谷歌最大的需求其實是人才,只有人才才能設計并完善這些系統,就像公司在狂熱地改善軟件訓練工具一樣,它在瘋狂地通過訓練來打磨機器學習工程師。他們涉及的范圍有大有小。最近的一次訓練是一個為期兩天的“TensorFlow 終極雞血學習課程”,課上既有講課用的幻燈片也有練習題。谷歌希望以此做一個嘗試,讓工程師找到學習的資源,以使他們學到更多。“對于下一次的課程,已經有幾千名員工報名了。”Dean 說。
除此以外,谷歌的機器學習還吸引了很多外行人。早在今年春天的時候,谷歌開啟了一個大腦住處項目(Brain Residency program),這個項目旨在吸引更多的局外人,使他們加入到谷歌大腦項目組開發的為期一年的強化學習課程之中。“我們把它看做深度學習生涯的一塊跳板。”Robson 說。羅濱孫也是這個項目的協助管理者。盡管這27位從各行各業中來的參與者會被谷歌忽悠被迷得團團轉進而改行,但課程的主要目標還是讓他們回到之前的領域中,用他們掌握的超能力來把谷歌機器學習的構想傳播的更遠。
因此,從某種意義上來說,Carson Holgate 在她的忍者項目中所學習到,就是谷歌打算在全世界所有研究人工智能領域的公司中保持領先地位的核心知識。
她參加的忍者計劃的第一階段是為期四周的新手訓練營。在那里,谷歌會用最先進的人工智能項目中的領頭產品來訓練他們,使機器學習成為一個項目。“我們把忍者扔到一個會議室里,克雷格·克拉多在白板前向大家解釋 LSTM 的含義是長短期記憶,是讓神經網絡非常有效的一種技術。他一邊講解一邊夸張地做著各種動作,展示真正的工作過程,解釋什么是數學,如何在產出中使用等一系列問題,“羅濱孫介紹說,“通常我們只在前四周一一展示我們的技術以及我們的工具箱中有的工具,這會讓他們沉浸其中。”
Holgate 已經通過了新兵訓練,現在正在使用機器學習工具在安卓上構建一個溝通特征,這個溝通特征能夠輔助谷歌用戶之間相互交流。現在她正在調整各種超參數。同時她也要清除輸入的數據,除去含有停止意義的動詞。對于她來說沒有回頭路,因為她知道這些人工智能技術就代表著谷歌的現在和未來,甚至可能是谷歌全部的技術所在,甚至是全世界的技術核心。
“機器學習,”她說,“在這里非常龐大。”
本文由 AI100 編譯,轉載需得到本公眾號同意。
編譯:AI100
原文鏈接:https://backchannel.com/how-google-is-remaking-itself-as-a-machine-learning-first-company-ada63defcb70