精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
MIT在讀博士心得:做好AI科研,你需要注意什么?



AI 研究這么火熱,為什么我卻只能面對滿天的公式不知所云?書海茫茫,這么多領(lǐng)域,我該從哪里開始,又該學(xué)些什么?那些大佬讀本科的時(shí)候,論文就可以發(fā)頂會(huì),為什么我現(xiàn)在都讀了一年碩士/博士了,連個(gè)科研的邊都沒摸到?我怎么才能找到適合自己的科研之路?不用擔(dān)心,哪怕是 MIT 的博士也會(huì)和你有過同樣的心路歷程。


下面這篇文章就是 MIT 博士二年級在讀學(xué)生 Tom Silver 的科研經(jīng)驗(yàn)談。Tom Silver 是哈佛大學(xué)計(jì)算機(jī)和數(shù)學(xué)專業(yè)本科畢業(yè)生,曾有過 Sabeti Lab、Google、Vicarious 等多家知名 AI 實(shí)驗(yàn)室或公司的實(shí)習(xí)經(jīng)歷。相信他的科研心得一定能給你一些啟發(fā)。


以下內(nèi)容由人工智能頭條翻譯:


我朋友馬上就要開始 AI 方面的研究,而我恰好要比他早兩年入坑,所以他最近一直在向我詢問相關(guān)的研究經(jīng)驗(yàn)。這篇文章就是我對自己兩年研究經(jīng)驗(yàn)的總結(jié),其中既有平常的生活感悟,也有研究技巧,希望對讀者朋友有一點(diǎn)幫助。


入門


找一個(gè)合適的人問“笨問題”


我最開始做研究的時(shí)候常常不敢向同事們請教,害怕提的問題聽起來太不專業(yè),被他們看不起。這種情況一直持續(xù)了好幾個(gè)月才有所緩解,但我依然非常謹(jǐn)慎,生怕漏了怯。不過現(xiàn)在我已經(jīng)有了幾個(gè)知心伙伴,可以直接和他們討論問題。真希望我可以早一點(diǎn)認(rèn)識(shí)他們!


以前我碰到問題都是直接 Google,滿屏幕的鏈接和資料常常讓我十分迷茫;但現(xiàn)在每當(dāng)我碰到問題的時(shí)候,我就可以直接提出來和大家討論,而不是自己一個(gè)人悶頭解決。


在不同的地方尋找研究靈感


決定自己下一步要做什么可能常常是很多人科研生涯中最困難的一部分。我這里有幾個(gè)科研人員常用的策略:


  • 與不同研究領(lǐng)域的人交流。多詢問他們感興趣的問題,并試著用計(jì)算機(jī)領(lǐng)域的專業(yè)術(shù)語來重述這些問題。多詢問他們有沒有想要分析但是用現(xiàn)有技術(shù)難以解決的數(shù)據(jù)集。機(jī)器學(xué)習(xí)中最有影響力的工作很多來自于計(jì)算機(jī)與生物/化學(xué)/物理學(xué)、社會(huì)科學(xué)或純數(shù)學(xué)之間的碰撞。例如 Matthew Johnson 等人在 NIPS 2016 上發(fā)表的論文(Composing graphical models with neural networksfor structured representations and fast inference,https://arxiv.org/pdf/1603.06277.pdf ),就是受一個(gè)小鼠行為數(shù)據(jù)集啟發(fā)的結(jié)果;再比如 Justin Gilmer 等人在 ICML 2017 會(huì)議上的論文(Neural Message Passing for Quantum Chemistry,https://arxiv.org/pdf/1704.01212.pdf ),該工作將機(jī)器學(xué)習(xí)方法應(yīng)用在了量子化學(xué)的研究中。


  • 編寫一份簡單的 baseline 代碼來感受這個(gè)問題。例如,嘗試編寫一些控制倒立擺的代碼,并進(jìn)行仔細(xì)地校準(zhǔn),或者試試看能不能在自然語言數(shù)據(jù)集上實(shí)現(xiàn)一個(gè)詞袋模型。編寫 baseline 時(shí),我常常遇到一些出乎意料的情況——心智模型(mental model)或代碼中存在錯(cuò)誤。就算我的 baseline 代碼可以運(yùn)行了,我通常還會(huì)嘗試一些其他的想法,以此對問題有更深的理解。

  • 擴(kuò)展你喜歡的論文的實(shí)驗(yàn)部分。仔細(xì)閱讀那些論文的方法和結(jié)果。嘗試找到其中最有價(jià)值的部分。首先我們可以考慮一些最簡單的擴(kuò)展,問問自己:論文中的方法是否適用。然后可以考慮一下文章沒有討論過的 baseline 方法,并想一下這些方法可能會(huì)在哪里失敗。


掌握可視化工具和技能


在寫代碼時(shí),我通常采用的策略是先從創(chuàng)建可視化腳本開始。當(dāng)寫完其他代碼后,可視化腳本可以幫助我快速驗(yàn)證代碼是否和心智模型相匹配。更重要的是,和其他方法相比,良好的可視化常常可以讓我更容易發(fā)現(xiàn)思維或代碼中的錯(cuò)誤。還有一點(diǎn)原因就是自我激勵(lì):每當(dāng)我完成一份代碼時(shí),我都可以拿出一份漂亮的圖表或視頻來向大家炫耀!


當(dāng)然,針對手頭的問題進(jìn)行正確的可視化可能還需要一些技巧。如果是迭代優(yōu)化模型(如深度學(xué)習(xí)),可以先從繪制損失函數(shù)曲線開始。此外還有很多技術(shù)也可以用來進(jìn)行(特別是卷積)神經(jīng)網(wǎng)絡(luò)的習(xí)得權(quán)重的可視化以及解釋,例如導(dǎo)向反向傳播(https://arxiv.org/pdf/1412.6806.pdf )。


在強(qiáng)化學(xué)習(xí)和規(guī)劃中,需要可視化的事情則顯而易見,就是智能體在環(huán)境中的行為,比如 Atari 游戲,機(jī)器人任務(wù)或簡單的 Grid World(例如 OpenAI Gym 中的環(huán)境)。通過不同的設(shè)置,我們還可以將價(jià)值函數(shù)及其在訓(xùn)練過程中的變化(如下所示)進(jìn)行可視化,或可視化已遍歷的狀態(tài)樹。


在處理圖模型時(shí),對一維或二維變量在推理時(shí)分布的變化進(jìn)行可視化,可以獲得很多的信息(如下所示)。衡量可視化技術(shù)有效性的一種方法就是,估計(jì)你每次分析可視化時(shí)腦海中需要提前掌握的信息量。糟糕的可視化結(jié)果會(huì)需要你對寫過的代碼進(jìn)行詳細(xì)的回顧,而一個(gè)好的可視化結(jié)果則會(huì)讓結(jié)論呼之欲出。


Tensorboard是一個(gè)用于Tensorflow深度學(xué)習(xí)模型可視化的流行GUI

將分布繪制出來作為證據(jù)累積,可以使圖模型的調(diào)試更容易(來自 Wikimedia)。


通過Q-learning習(xí)得的價(jià)值函數(shù)可以在它所代表的Grid World中可視化(by Andy Zeng)。


學(xué)會(huì)找出研究人員和論文的基本出發(fā)點(diǎn)


雖然很多研究人員會(huì)在相同的會(huì)議上發(fā)表文章,使用相同的術(shù)語,并都聲稱自己的研究領(lǐng)域是人工智能,但他們研究的出發(fā)點(diǎn)(motivations)卻很可能截然相反。一些人甚至想為這個(gè)領(lǐng)域更名來解決問題(Michael Jordan 就在最近的一篇文章中呼吁大家為這個(gè)領(lǐng)域更名https://medium.com/@mijordan3/artificial-intelligence-the-revolution-hasnt-happened-yet-5e1d5812e1e7 )。在這個(gè)領(lǐng)域,至少可以從三種主要的角度出發(fā),分別是“數(shù)學(xué)”、“工程”和“認(rèn)知”。


  • 從“數(shù)學(xué)”角度出發(fā):智能系統(tǒng)的基本屬性和限制是什么?

  • 從“工程”角度出發(fā):我們?nèi)绾尾拍荛_發(fā)出可以更好地解決實(shí)際問題的智能系統(tǒng)?

  • 從“認(rèn)知”角度出發(fā):我們應(yīng)該如何對人類和其他動(dòng)物中發(fā)現(xiàn)的自然智能進(jìn)行建模?


這些出發(fā)點(diǎn)并不沖突,AI 領(lǐng)域許多有趣的不管從哪個(gè)角度看都非常有意思。此外,個(gè)人研究者也常常會(huì)受到不同角度的觸動(dòng),這有助于 AI 領(lǐng)域的交融。


當(dāng)然,出發(fā)點(diǎn)也可能不一致。我有一些朋友和同事,他們明顯專注于“工程”角度,而另一些人則主要對“生物學(xué)”感興趣。如果有一篇文章顯示現(xiàn)有技術(shù)的某些巧妙組合可以在 baseline 上超越目前的最優(yōu)水平,那工程師們就很有可能對這篇文章感興趣,而認(rèn)知科學(xué)家則可能絲毫不感興趣,甚至對其嗤之以鼻。而一篇闡釋了生物可解釋性(biological plausibility)或認(rèn)知聯(lián)系卻只停留在理論或者沒有嚴(yán)肅結(jié)果的文章,在這兩種研究者中收到的反響可能就截然相反。


優(yōu)秀的論文和研究人員會(huì)在一開始就說明他們的出發(fā)點(diǎn),但其背后的根本動(dòng)機(jī)則可能隱藏的很深。如果出發(fā)點(diǎn)不明顯,我們可以從多個(gè)角度對文章進(jìn)行分析,這會(huì)很有幫助。


從研究社區(qū)中汲取營養(yǎng)


找論文


在 arXiv 上有大量的 AI 論文,而且可以免費(fèi)查看。除了論文數(shù)量飛速增長,社區(qū)中大量的活躍用戶也降低了尋找高質(zhì)量文章的難度。李飛飛的學(xué)生 Andrej Karpathy 建立了 arXiv sanity preserver,可以幫助我們對相關(guān)文章進(jìn)行排序,搜索和過濾。Miles Brundage 常常每天晚上在 Twitter 上發(fā)布經(jīng)過精心挑選的 arXiv 論文清單;這項(xiàng)任務(wù)大部分都是由 Brundage Bot 完成的。很多其他 Twitter 用戶也時(shí)不時(shí)分享很多有趣的參考資料——我建議大家可以在 Twitter 上關(guān)注一些自己感興趣的研究人員。


如果你喜歡用Reddit,那么可以考慮使用 r/MachineLearning(https://www.reddit.com/r/MachineLearning/ ),但這些帖子往往更適合機(jī)器學(xué)習(xí)工程師而不是學(xué)術(shù)研究人員。Jack Clark 每周會(huì)發(fā)布一個(gè)名為 'Import AI' (https://jack-clark.net/ )的社區(qū)新聞簡報(bào),Denny Britz 則有一個(gè)名為'The Wild Week in AI(https://www.getrevue.co/profile/wildml)'的專欄。


一些 AI 大會(huì)的論文集錦也值得關(guān)注。機(jī)器學(xué)習(xí)領(lǐng)域的三大最頂級會(huì)議是 NIPS,ICML 和 ICLR。其他會(huì)議還包括 AAAI,IJCAI 和 UAI。具體到這個(gè)領(lǐng)域的每個(gè)子學(xué)科,還會(huì)有更具體的會(huì)議。計(jì)算機(jī)視覺領(lǐng)域的會(huì)議包括 CVPR,ECCV 和 ICCV;自然語言處理領(lǐng)域的會(huì)議有 ACL,EMNLP 和 NAACL;機(jī)器人領(lǐng)域的會(huì)議包括 CoRL,ICAPS,ICRA,IROS 和 RSS;對于更加理論性的工作,可以關(guān)注 AISTATS,COLT 和 KDD 這些會(huì)議。這些會(huì)議是目前 AI 論文發(fā)表的主要渠道,當(dāng)然也有一些期刊。JAIR 和 JMLR 是該領(lǐng)域兩個(gè)最重要的期刊。偶爾再高級些的文章也會(huì)出現(xiàn)在如 Nature 和 Science 上這樣的科學(xué)類期刊上。


查閱經(jīng)典論文同樣也很重要,但這也更難。那些經(jīng)典論文的名字常常在很多文章的參考文獻(xiàn)中,或者研究生課程的推薦閱讀書單里。另一種發(fā)現(xiàn)經(jīng)典論文的方法是從該領(lǐng)域的資深教授開始,尋找他們早期的工作,即他們的研究軌跡,也可以通過電子郵件向這些教授請求更多的參考資料(當(dāng)然,如果他們太忙而沒有回復(fù),也不要介意)。而至于更舊些的文章,谷歌學(xué)術(shù)搜索關(guān)鍵字是一個(gè)好辦法。


應(yīng)該花多少時(shí)間來讀論文?


關(guān)于人們要在了解以前的研究工作上花費(fèi)多少時(shí)間這個(gè)問題,我經(jīng)常聽到的建議有兩種。第一種,如果你剛剛開始,那么請閱讀所有論文!人們經(jīng)常說研究生的第一個(gè)學(xué)期或第一年應(yīng)該只讀論文。而第二種建議則是,在對研究領(lǐng)域有了最初的了解之后,不要花太多時(shí)間閱讀論文!后者的出發(fā)點(diǎn)在于,如果沒有受到以前的方法影響,研究者就更容易用創(chuàng)造性的方式構(gòu)造和解決問題。


我個(gè)人是同意第一點(diǎn)建議,不同意第二點(diǎn)建議。我認(rèn)為,在確保原創(chuàng)研究時(shí)間的前提下,科研人員應(yīng)該盡可能多的閱讀論文。“如果我不熟悉別人嘗試過的方法,那我更容易設(shè)計(jì)出一種更加新穎,優(yōu)秀的方法來解決困難問題。”——這種事情似乎不太可能,而且有些太過傲慢自大。沒錯(cuò),用全新的觀點(diǎn)來看待問題是很重要,那些業(yè)余愛好者的故事很多也都是因?yàn)樗麄兲鰝鹘y(tǒng)思維的視角。但身為職業(yè)研究人員,我們不能只依賴這種運(yùn)氣性的成分而不深思熟慮來得到一個(gè)問題的解決方案。在研究生涯的絕大多數(shù)時(shí)間里,我們都是在耐心地、一步一步地、有條不紊地解決問題。閱讀相關(guān)論文則是一種讓我們明白自己所處的研究位置以及接下來要嘗試的方法的高效方式。


當(dāng)然,在盡可能多的讀論文這件事情上,我需要提醒一下:花時(shí)間消化論文與閱讀論文一樣重要。最好是可以先閱讀一些論文,然后仔細(xì)記錄并反思每一篇文章,而不是一篇一篇的囫圇吞棗式的閱讀。


交流>> 視頻 > 論文 > 會(huì)議演講


想要理解一個(gè)陌生的研究歷年,那么閱讀論文當(dāng)然是最容易的途徑,但是最高效的途徑呢?不同的人可能會(huì)有不同的答案,對我而言,和他人交流(理想情況下,和已經(jīng)了解自己相關(guān)想法的人交流)是到目前最快而且最有效的理解途徑。如果身邊沒有這樣的人,那么觀看和這個(gè)主題相關(guān)的視頻——例如這篇論文的作者受邀進(jìn)行的演講——也是一種非常好的理解方式。當(dāng)演講者對著現(xiàn)場觀眾進(jìn)行演講時(shí),他們會(huì)優(yōu)先考慮表達(dá)是否清晰易懂,而不是表達(dá)的準(zhǔn)確性。但在大多數(shù)論文寫作中,這兩者的優(yōu)先級是相反的。在論文中,字?jǐn)?shù)非常重要(作者不能為了講清楚一個(gè)概念而占用太大篇幅),不準(zhǔn)確的背景介紹還有可能讓人認(rèn)為作者對該領(lǐng)域缺乏了解。最后,簡短的會(huì)議演講則通常形式大于意義。當(dāng)然,演講之后與主講人的交流也是非常有價(jià)值的。


謹(jǐn)防炒作


人工智能領(lǐng)域的成功引起了公眾的關(guān)注,也吸引了更多的人進(jìn)入該領(lǐng)域,這個(gè)循環(huán)的影響主要是良性的,但也有一個(gè)有害的副作用——炒作。媒體總是想得到更多的點(diǎn)擊率;科技公司則希望獲得投資者的青睞,并招到更多的員工;同樣地,研究人員則希望提高自己論文的知名度和引用量,這些都導(dǎo)致了越來越嚴(yán)重的炒作現(xiàn)象。所以當(dāng)我們看到媒體報(bào)道或者論文的標(biāo)題時(shí),要多想一想這些背后的因素,提防標(biāo)題黨。


在 2017 的 NIPS 會(huì)議的一場論文問答環(huán)節(jié)中,數(shù)百名觀眾聽到了一位相當(dāng)著名的教授(為了反對炒作)拿著麥克風(fēng)對論文作者的勸告,教授勸告論文作者在標(biāo)題中謹(jǐn)慎使用“imagination”這個(gè)單詞。我對這類近乎公開的反對有著復(fù)雜的感受,而且還碰巧很喜歡這篇特別的論文,但我相當(dāng)理解那位教授的不滿。人工智能研究中最常見和但也最令人厭惡的宣傳套路之一就是對舊觀念改頭換面,用一個(gè)新術(shù)語。一定要小心這些流行語——作為一名嚴(yán)謹(jǐn)?shù)目蒲腥藛T,還是應(yīng)該主要根據(jù)其實(shí)驗(yàn)和結(jié)果來判斷論文。


科研是一場馬拉松


制定可量化的目標(biāo)


在早期尋找研究項(xiàng)目時(shí),我曾花費(fèi)大量時(shí)間來進(jìn)行頭腦風(fēng)暴。對我來說,那個(gè)時(shí)候進(jìn)行頭腦風(fēng)暴就是把腦袋擱在辦公桌上,呆呆地希望有些模糊的直覺能夠變成具體的見解。結(jié)束了一天的頭腦風(fēng)暴后,我常常會(huì)感到疲倦和沮喪。這種生活難道就是科研嗎?


當(dāng)然,現(xiàn)實(shí)中并不存在能讓人立即取得研究進(jìn)展的秘訣,在黑暗中苦苦摸索是大部分人研究生涯的一部分。但是,現(xiàn)在我發(fā)現(xiàn)通過制定可量化的目標(biāo),然后規(guī)劃工作,可以讓我的科研生活變得更容易并且更充實(shí)。在我不知道接下來要做什么的時(shí)候,我經(jīng)常會(huì)盡可能詳細(xì)地把自己模糊的想法寫下來;如果在寫下這個(gè)想法的過程中,覺得它并不合適,那么寫下排除該想法的理由(而不是完全廢除這個(gè)想法并不再衡量自己的進(jìn)展)。在沒有任何想法的情況下,我們可以采取閱讀文章或與同事交流。在每一天結(jié)束的時(shí)候,我的工作終于有了些實(shí)實(shí)在在的痕跡。即使這些想法從未被使用過,也在很大程度上提高了我的自信。我不用再擔(dān)心以后會(huì)在相同的想法上浪費(fèi)時(shí)間。


學(xué)會(huì)認(rèn)識(shí)并避開死胡同


優(yōu)秀的研究人員會(huì)花更多的時(shí)間在好的想法上,因?yàn)樗麄冊趬闹饕馍匣ǖ臅r(shí)間更少。有能力分辨好想法和壞想法似乎主要是經(jīng)驗(yàn)的問題。盡管如此,無論什么水平的研究人員也都經(jīng)常遇到下面這樣的抉擇。我的研究思路有缺陷或不確定,那么我應(yīng)該試著選擇A):進(jìn)一步挽救或者說繼續(xù)這個(gè)想法,還是選擇B):完全放棄這個(gè)想法呢?我個(gè)人后悔把本應(yīng)該花在B)上的時(shí)間花在A)上。特別是剛開始的時(shí)候,我曾經(jīng)很多次陷入死胡同中,并且在那花了很長時(shí)間。我不愿意放棄的根源可能是由于沉沒成本誤區(qū)——如果我放棄這條死胡同,就會(huì)白白浪費(fèi)自己已經(jīng)花費(fèi)的時(shí)間。


現(xiàn)在我每次放棄一條死胡同時(shí),仍然會(huì)感到失望。但我一直在努力告訴自己回溯也是前進(jìn)的其中一步,這雖然有點(diǎn)反直覺,但我一直在內(nèi)化這種意識(shí)。已經(jīng)付出的成本是值得的,并沒有沉沒。如果我今天沒有探索這個(gè)死胡同,明天就可能會(huì)再次鉆進(jìn)去。死胡同不是結(jié)束,他們也是正常的科研生活的一部分。希望這些想法中有一個(gè)能被我堅(jiān)持下去。如果沒有,還有費(fèi)曼的名言:我們試圖盡快證明自己的錯(cuò)誤,因?yàn)橹挥羞@樣我們才能進(jìn)步。


We are trying to prove ourselves wrong as quickly as possible, because only in that way can we find progress 。― Richard Feynman


動(dòng)筆!


我曾經(jīng)有機(jī)會(huì)向一位非常著名的 AI 研究人員咨詢職業(yè)生涯早期的建議。他的建議很簡單:動(dòng)筆!除了動(dòng)筆寫博客和論文,更重要的是,每天都要寫下自己的想法。自從聽取了他的建議之后,我就注意到每當(dāng)我積極寫作而不僅僅是簡單思考的時(shí)候,我所取得的進(jìn)展就會(huì)有明顯的不同。


身心健康是做好科研的前提


科研人員在醉心科研時(shí)常常廢寢忘食,這是十分危險(xiǎn)的表現(xiàn)。我以前常常以這種狀態(tài)為目標(biāo),并常為自己沒有達(dá)到這種狀態(tài)而羞愧。我現(xiàn)在明白了(至少在理性層面上),鍛煉和精神休息都是投資,而不是分心。如果我花 8 個(gè)小時(shí)睡覺和 4 個(gè)小時(shí)工作,我的工作效率反而會(huì)比花費(fèi) 4 個(gè)小時(shí)睡眠和 8 個(gè)小時(shí)工作高。


當(dāng)然,在一個(gè)棘手的問題面前中斷工作可能仍然非常困難。即使當(dāng)我已經(jīng)超過疲憊或沮喪的臨界點(diǎn),并且沒有取得任何實(shí)質(zhì)性的進(jìn)展時(shí),我也不會(huì)休息,而是繼續(xù)鉆研。當(dāng)我終于能夠前進(jìn)一點(diǎn),并且可以停下來深呼吸一口氣時(shí),我就總會(huì)為我的堅(jiān)持感到由衷的高興。希望我可以在進(jìn)入研究生涯下一階段的過程中繼續(xù)保持這種干勁。



原作者:Tom Silver

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
推薦|深度學(xué)習(xí)可視化分析發(fā)展概覽
閱讀深度學(xué)習(xí)論文的新姿勢
AI在手,DJ我有
大國科技博弈,開放科學(xué)平臺(tái)的“四步”開源之旅(科技創(chuàng)新與大國博弈)
論文突破200萬篇后,arXiv卻漸失人心?
什么是預(yù)印本?發(fā)布預(yù)印本的需要考慮的問題
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 德江县| 兴化市| 根河市| 无棣县| 定安县| 全椒县| 离岛区| 盐津县| 上饶县| 花莲市| 灌阳县| 崇文区| 常宁市| 民勤县| 康平县| 商水县| 通江县| 莎车县| 宁河县| 泰来县| 沾化县| 资源县| 辰溪县| 梁平县| 扶风县| 裕民县| 会东县| 迭部县| 沁水县| 乳山市| 兴宁市| 湖南省| 梧州市| 浦城县| 青岛市| 万年县| 抚顺市| 山丹县| 云梦县| 延吉市| 综艺|