在論文提交后的短短四周內就獲得了超過 2700 的查閱量
她就是 90 后美女學霸陳丹琦
https://cs.stanford.edu/~danqi/
小姐姐籍貫湖南長沙
小學三年級起學習奧數,從小就對數學有著特殊的天賦
中學就讀于”百年老校“雅禮中學
期間,陳丹琦又迷上了信息學
高中時,便獲得了國際信息學奧林匹克金獎
還上了當年的新聞,成為湖南省第一位入選信息學國家隊的女選手
被媒體稱作“透著周筆暢似的微笑”的女生
在此期間,她還提出了 CDQ 分治算法,以及插頭 DP(輪廓線動態規劃)
隨后她又進入了清華學堂計算機科學實驗室(姚班)
并在畢業時榮獲清華大學 2012 屆優秀本科畢業論文,以及姚期智院士親自頒發的獲獎證書的殊榮
而這僅僅只是她在算法/數據結構和理論計算機科學方面
之后,在斯坦福大學學習的六年多的時間里,新的研究領域正向她打開……
人工智能以及自然語言處理領域的相關研究
期間,她還擔任過:
微軟亞洲研究院實習生(ML&WSM小組)
微軟研究院雷蒙德研究實習生(NLP小組)
紐約市 Facebook AI Research 研究實習生
目前,陳丹琦正訪問美國西雅圖的 Facebook AI Research 和華盛頓大學
主要研究方向是深度學習在自然語言處理中的應用,尤其是文本理解和知識表示/推理之間的交叉領域
據悉,2019 年秋季,陳丹琦將加入普林斯頓大學計算機科學系擔任助理教授
她的求學經歷、成長歷程
無不彰顯出她的”學霸“氣質
然而 在她的成長歷程中,她卻一直心懷感謝
對她的父母、她的愛人、她的朋友、她的老師
她的父親,同時還是當年國防科大的數學副教授
對于父母,她心懷感恩,值得驕傲
她的愛人,俞華程,與她一同畢業姚班,進入斯坦福攻讀算計博士學位
僅用 4 年時間便發表數篇重要論文提前畢業,現于哈佛大學做博士后
對于愛人,她感念他兒時起的十多年陪伴,欽佩他的”謙遜、專注、聰慧與努力“
http://theory.stanford.edu/~yuhch123/
當然,此次她最要首先感謝的就是她的博士論文指導老師、斯坦福大學語言學和計算機科學教授 Christopher Manning
要知道在計算機領域,博士畢業的難度可想而知
作為斯坦福人工智能實驗室(SAIL)小組成員之一的 Chris Manning
在自然語言領域多有建樹,其主講的斯坦福 CS224n 課程(期間陳丹琦也作為助教)
與李飛飛的 CS231n 同為自然語言處理和計算機視覺領域的”必修課“
去年 11 月,Chris 也成為斯坦福實驗室的新負責人,與回歸斯坦福的李飛飛開始新的合作
那么,Chris 與愛徒陳丹琦
是否會成為下一個自然語言處理界的”李飛飛與李佳的 CP“呢?
下面,我們試圖透過陳丹琦的博士畢業論文”Neural Reading Comprehension and Beyond“,了解她目前在自然語言處理領域的成果。
Christopher Manning 評論稱:“陳丹琦是采用神經網絡進行自然語言理解的先驅。她的這個模型簡單、干凈、成功率高,吸引了不少人的關注。”
該篇論文主要討論了“人工智能中最難以琢磨且長期存在的挑戰之一”:教機器如何理解人類語言。通過改進性能,通過驗證和推廣的模型以及問答系統的潛在應用以推進自然語言處理技術的方法。
論文鏈接:https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf
以下為論文摘要及論文框架部分(AI科技大本營做了不改變原文的翻譯):
摘要
教機器理解人類語言文本是人工智能所面臨的最困難、長期存在的挑戰之一。而本文探討的就是閱讀理解問題:如何建立一種計算機系統,使其能真正的讀懂文本并回答問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解能力的一項重要指標。另一方面,如果真的可以構建高效的閱讀理解系統,那么這將成為自動問答和對話系統應用落地的關鍵技術。
這篇論文專注于神經閱讀理解,一類基于深度神經網絡的閱讀理解模型。與稀疏的、手動的、基于特征的傳統模型相比,這種端到端神經模型被證明在學習豐富語言現象方面更有效,在現代閱讀理解的各項指標上都有大幅度的提升。
論文主要由兩部分組成。第一部分主要分析神經閱讀理解的本質,介紹在建立有效的神經閱讀理解模型中我們所做的努力,更重要的是理解神經閱讀理解模型實際中學到了什么,以及要解決當前的任務模型理解深度需要達到什么程度。我們還總結了這一領域的最新進展,討論了未來的發展方向和有待解決的問題。
在第二部分,我們探討的是如何把神經閱讀理解模型的最新研究成果應用在實際中。為此,我們探索了兩個新課題:
(1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放域問題的問答;
(2)如何基于閱讀理解模型從目前的單向制問答方式轉變為對話式的問答系統。我們把這些方法應用在 DRQA 和 COQA 項目中,并證明了其有效性。我們相信,未來這些方法在語言技術領域中將會有很大的發展前景。
(第一部分)
第二章主要闡述了閱讀理解任務的歷史與近年發展概況。然后定義了問題公式與主要分類,并簡短討論閱讀理解與通用問題回答間的區別;最后,探討近年來神經閱讀理解由大規模數據集和神經模型兩者帶來的成功。
第三章內容主要基于她們自己的研究工作。先介紹了神經閱讀理解的全部模型。從非神經網絡方法,基于特征分類的方法開始,討論它們與端到端的神經方法有哪些區別。然后到神經網絡方法,介紹了她們自己的提出的方法“THE STANFORD ATTENTIVE READER ”,以及此方法應用到 CNN/DAILY MAIL 和 SQUAD 兩個代表性數據集上的實驗結果。更重要的是還深入分析了神經網絡模型之所以有更好的理解能力到底學習了什么。最后,總結了近年來神經閱讀理解模型在不同方面取得的進展。
第四章主要探討了關于這個領域未來的研究工作于開放性研究問題。
(第二部分)
第五章中,我們將開放域問答任務視為閱讀理解的應用之一。如何將高性能的神經閱讀理解系統與有效的信息檢索技術結合,構建新一代開放域問答系統。同時以我們的研究工作為基礎,介紹了 DRQA 系統,包括其關鍵部分與如何為其構造訓練數據,并對其在多個任務基準中進行評估。從而探討 DRQA 系統的局限性與未來的工作方向。
第六章研究了對話式問答系統,即機器必須理解一段文字內容后回答對話中出現的一系列問題。在簡要回顧對話系統相關論文后發現,構建信息搜尋對話主體的關鍵是對話問答。之后對 CoQA 進行了介紹,一個為對話問答系統構建的新穎數據集,從文本段落的 8k 對話中收集的 12.7 萬個問答與答案,對此進行深度分析與構建幾個模型。基于我們 2019 年現階段的一些工作,我們也對此領域的未來方向進行了探討。
最后在第七章進行論文的總結。
或許當你讀到這里,你或許已對陳丹琦過去的精彩人生感到羨慕,對她目前的學術成果有所贊賞,但或許你不知道的是:
在她走出國門留學海外的生涯里,遇到過多少的難題和挫折?
例如同為 Chris Manning 學生的齊鵬,與陳丹琦同來自清華,也是個相當的厲害人物
2012 年,齊鵬以 89.9% 的GPA(Top 5)從清華畢業
同年,在多哈舉辦的 2012 神經信息處理國際會議上
與其指導老師胡曉林,中科院院士、計算機系教授張鈸共同撰寫的論文《用于建模視覺皮層V2區神經元的層次化K-均值算法》(Hierarchical K-Means Algorithm for Modeling Visual Area V2 Neurons)獲得最佳論文獎
2013 年,齊鵬成為吳恩達的學生,在斯坦福繼續深造
2015 年,齊鵬在 Chris Manning 的指導下攻讀博士學位期間,除了曾與陳丹琦共同發 Paper 之外,還做了其他工作:
比如兩人最新發表的文章,就介紹了斯坦福大學 NLP 組推出的最新的機器閱讀數據集——CoQA 和 HotpotQ
雖然,陳丹琦和齊鵬都屬于天之驕子,但讀博歷程向來艱辛,特別是在另一個陌生語言的國度
正如陳丹琦在博士論文的致謝里所寫:
“按照要求,我得在斯坦福修 5 門英語課程,對這個國家也知之甚少,甚至從未聽說過”自然語言處理“這一概念。
從結巴的英語,到 156 頁的英語論文,其中艱辛可想而知
而齊鵬在讀博之前還動手翻譯了 Philip J. Guo 的回憶錄《The Ph.D. Grind》
這本書記述了從 2006 年到 2012 年 Philip J. Guo 在斯坦福?學攻讀博?研究?期間六年的求學經歷,可見齊鵬在決定讀博之前必然做了很多心理準備
在”譯者序“里,齊鵬寫道:
“借原作者致禮的這句話,再次表達對他們的敬意:獻給所有熱愛創造的?。“