精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
十年育林,百度NLP已枝繁葉茂
機器之心原創
作者:張倩
種一棵樹,最好的時間是十年前,其次是現在?!狣ambisa Moyo


7 月 10 日,自然語言處理頂會 ACL 2020 落下帷幕。本次大會共收到 3429 篇論文投稿,其中 779 篇被接收,接收率為 22.7%,與去年持平,低于近年來大部分年份的接收率。
在這 779 篇論文中,有 185 篇來自中國大陸,占被接收論文總數的 23.7%,僅次于美國。此外,今年的最佳論文二作和最佳 demo 論文一作均為華人學生。
然而,很多人可能不知道,2000 年 ACL 年會在中國香港舉辦時,只有微軟中國研究院的論文來自中國大陸;到了 2005 年,來自大陸的論文也只有三篇。
很多變化是過去十幾年發生的,尤其是過去的十年。在這十年里,中國的 NLP 學界在 ACL 年會中的投稿數、被接收論文數逐年上升,同時,中國的 NLP 學者也實現了多個 “第一次” 的突破:
  • 2013 年,王海峰出任 ACL 五十年來首位華人主席;

  • 2014 年,吳華出任 ACL 程序委員會主席,成為中國企業首位 ACL 程序委員會主席;

  • 2015 年,ACL 年會首次在中國舉辦;大會上,哈工大教育部語言語音重點實驗室主任李生教授獲得 ACL 終身成就獎,成為首個獲得該獎項的華人;

  • 2016 年,趙世奇當選 ACL 秘書長,成為首位當選該職位的亞洲人;

  • 2018 年,ACL 宣布創建亞太區域分會(AACL)并計劃在 2020 年舉行首次會議,由王海峰擔任創始主席;

  • 2020 年,百度領銜組織了 ACL 大會上首場同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation);

  • ……


從這些突破中,我們可以看到中國科學家的快速成長,看到中國 NLP 學界在國際上不斷擴大的影響力,看到百度這家中國互聯網公司躋身世界科技巨頭的努力。

為什么一家中國互聯網公司能夠吸引眾多 NLP 領域的科學家,能夠成為國際 NLP 頂會的重要參與者?我們也許可以從百度早期的戰略布局中找到線索。
早在十年前,百度就已經在 ACL 大會上留下了中國互聯網企業的身影。彼時,第三次人工智能浪潮還沒有掀起太多波瀾,李世石和 AlphaGo 的里程碑式對弈還有六年才會發生。
今年正值百度 NLP 的第十個年頭,我們回顧一下過去十年的路程,看看以百度為代表的中國企業如何憑借對整個領域的洞察在 NLP 領先布局、持續投入前沿技術研究及產業實踐,這對于當下提升科技競爭力以及如何在行業發展早期做好戰略布局仍具有借鑒意義。
百度與 ACL 的十年交集
2010 年,百度進入創建之后的第二個十年,中國互聯網也進入了高速發展期。
當時,百度已經積累了大量的數據和用戶群體,有著豐富的應用場景可以挖掘。對于需要大量真實數據并希望自己的成果服務廣大用戶的研究者來說,百度的這些特質有著強大的吸引力。于是,在這一年,百度迎來了 NLP 領域知名科學家——王海峰博士。


王海峰本碩博都畢業于哈工大,早在博士期間就做過將神經網絡引入機器翻譯的研究。進入百度之前,他曾先后就職于微軟中國研究院、東芝等,并與 ACL 結緣,2004 年開始在 ACL 上發表論文,2006 年曾有 5 篇論文被收錄。
除了海量的數據、豐富的應用場景之外,真正讓王海峰下定決心加盟百度的契機其實是 2009 年 8 月的“百度世界大會”。 與以往三屆不同,2009 年百度世界大會給人的感覺是格外具有技術味道。李彥宏在這屆大會上推出了全新計算平臺 “框計算”——用戶只要在”百度框”中輸入服務需求,系統就能明確識別這種需求,并將該需求分配給最優的內容資源或應用提供商處理,最終精準高效地返回給用戶相匹配的結果。 從這次大會中,王海峰看到了百度對 AI 技術的重視和謀劃。他敏銳地判斷出,如果百度沿著“框計算” 的思路進一步發展,就需要更強大的自然語言處理技術的支撐,尤其是語言分析、語義理解、知識圖譜等方向。
2010 年,進入百度之后,王海峰所做的第一件事就是成立了“自然語言處理部”。
在此之前,百度在 NLP 方面的研發工作一直在業務需求下進行,并沒有構成體系。NLP 部門的成立改變了這種 “指哪兒打哪兒” 的局面,對原有的工作進行了重新梳理與規劃,除分詞、專名識別、query 需求分析、query 改寫等傳統方向得到加強外,也逐步建設了機器翻譯、機器學習、語義理解、智能交互、深度問答、篇章理解等新的技術方向。
也是在這一年,王海峰敲定了百度在知識圖譜技術上的研發投入,而當時,知識圖譜還不是一個熱門的研究方向。
扎實的技術背景和豐富的行業經驗賦予了王海峰在 NLP 領域強大的背書能力。因此,他的加入進一步提升了百度的人才吸引力,幫助百度招攬了以吳華博士為代表的一大批技術骨干。
吳華博士在人工智能領域浸潤 20 余年,專注于自然語言處理。據統計,她在機器翻譯及自然語言處理領域授權或公開的專利申請有 100 余項,發表學術論文 60 余篇。
隨著技術骨干的加入,百度開始在 NLP 領域的國際頂會中嶄露頭角。2010 年,王海峰、吳華的一篇論文被 ACL 錄用,百度也成為參加這個國際頂會的首個中國互聯網企業。
在這之后的十年里,百度幾乎每年都會在 ACL 上展示最新的研究成果,成為這一國際大會的重要參與者。同時,在王海峰等人的不斷努力下,中國研究者在 ACL 上的影響力不斷擴大,開始擁有更多的話語權。
2013 年,王海峰出任 ACL 五十年來首位華人主席。
在王海峰等人的共同推動下,2015 年,ACL 首次在中國舉辦,體現了國際學界對中國自然語言處理研究的重視和認可。


2018 年,在第 56 屆 ACL 年會開幕式上,時任 ACL 主席 Marti Hearst 宣布創建亞太區域分會(AACL)并計劃在 2020 年舉行首次會議。之后每兩年舉行一次會議,會議地點將設置在亞太地區,由王海峰擔任 AACL 創始主席。
2020 年,百度 11 篇論文被 ACL 收錄,覆蓋了語義表示、情感分析、自動摘要、對話系統、機器翻譯、知識推理、AI 輔助臨床診斷等諸多熱點與前沿研究方向。同時,百度聯合谷歌、Facebook、清華大學等全球頂尖機構共同舉辦了首屆同聲傳譯研討會,就 ERNIE 核心技術、開放域人機對話技術、智慧醫療、生物醫藥等業內關注的話題做了演講,展現了中國企業在 NLP 及 AI 領域的技術創新與產業實踐。
如果將十年前的百度 NLP 比喻成一片苗圃,那么,經過十年的澆灌,這片苗圃已然成林。王海峰等人的貢獻在于,他們很早就選到了優質的樹苗并悉心培育。
從今年百度被 ACL 接收的論文以及最近公布的研究進展中,我們可以看到這種前瞻視野和布局帶來的豐碩成果。
從 ACL、百度看 NLP 十年研究趨勢
如果仔細觀察近幾年的 ACL 接收論文和百度公布的研究成果,我們不難發現 NLP 領域的幾個研究趨勢,包括 1)越來越多的研究者將知識融入到 NLP 模型中,以提高模型的理解和推理能力;2)多模態語義理解越來越受關注,同時在視頻網站、電商物流、自動駕駛等領域得到廣泛應用……
將知識融入 NLP 模型
語言和知識促進了人類文明的發展。人們從大量的數據和信息中獲取知識,語言是凝煉和傳承知識的載體,進而又將知識應用于生產生活的方方面面。早在十年前,王海峰就敏銳地覺察到知識的重要性,開始布局知識圖譜技術并逐漸加大研發投入。百度將多源異構的海量互聯網信息匯聚在一起,從中挖掘知識、構建大規模圖譜。而當時,知識圖譜對于大多數人來說還比較陌生。
2014 至 2017 年間,基于互聯網大數據和搜索應用,百度知識圖譜技術發展非常迅速。2016 年,百度構建了全球最大的知識圖譜,擁有數億實體、數千億事實。2017 年,基于知識圖譜技術突破和產業化應用,百度 “知識圖譜技術及應用” 項目獲得“中國電子學會科技進步一等獎”。
此后,面向實際應用場景,百度系統地拓展了多源異構知識圖譜的研發與應用。針對不同的應用場景和知識形態,構建了關注點圖譜、事件圖譜、多媒體圖譜、行業知識圖譜等多種圖譜。從認知深度、信息寬度和領域廣度多維度對實體圖譜進行了系統性的拓展和升級。在領域廣度方面,則從通用領域拓展到涵蓋醫療、法律等行業在內的具有強知識性的專業領域。
特別地,在醫療領域,基于知識圖譜技術的輔助醫療決策等產品目前已在全國 300 多家醫院、1500 多家基層醫療機構規?;涞貞谩O嚓P產品榮獲 2019 年全國醫療人工智能應用創新獎。2019 年 7 月,在百度開發者大會上首次發布了“行業知識圖譜平臺”,整合知識圖譜構建、存儲、問答、推理等技術能力,為行業知識的獲取與應用提供一體化解決方案。
此外,早在 2011 年,百度就著手研究基于知識的語言解析。2012 年,百度研發了基于海量數據訓練的神經網絡深度語義匹配框架——SimNet。該框架率先將語義表示與匹配計算統一在一個端到端的神經網絡模型里,并結合中文語言特性融合了多粒度知識,支持千億規模真實搜索點擊數據訓練。
去年,百度先后發布了知識增強的語義表示模型 ERNIE 和持續學習語義理解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在國際權威的通用語言理解評估基準 GLUE 上首次突破 90 大關,超越人類三個點,獲得全球第一。今年 3 月,在全球最大規模的國際語義評測 SemEval 上,ERNIE 獲得 5 項世界冠軍。在剛剛落下帷幕的世界人工智能大會,百度文心(ERNIE)知識增強語義理解技術與平臺獲得了大會最高榮譽獎項“卓越人工智能引領者”(SAIL)獎。


這些突破的取得,都離不開百度在相關方向上的前瞻布局和持續投入。
多模態語義理解
多模態語義理解是解決復雜場景智能化應用的關鍵技術,近年來備受關注。
2010 年左右,科技產業處在迅速的變化之中,人們對信息媒介的需求已不僅僅局限于文字,而是向語音、圖像等多個方向擴展。于是,幾乎在成立 NLP 部門的同一時期,王海峰就已開始著手布局語音技術和視覺技術,牽頭組建了當時的“多媒體部”。
這一決定是非常具有前瞻性的。因為當時,除了與搜索強相關的 NLP 業務,早期百度并沒有太多相關的智能技術需求。在多媒體部成立的初期,很多人也不知道這些技術有什么用。
憑借在語音、視覺、語言與知識等領域多年的技術積累與融合,2018 年百度發布了以 “多模態深度語義理解” 為核心的百度大腦 3.0。百度大腦是百度 AI 核心技術引擎,包括視覺、語音、自然語言處理、知識圖譜、深度學習等 AI 核心技術和 AI 開放平臺。如今,百度大腦已經向所有開發者開放了 260 多項 AI 能力,其中包括機器同傳、拍照翻譯、文檔解析、圖文審核、視頻分類、對話情緒識別、圖文轉視頻等融合文本與語音、視覺技術的能力。
今年,百度在多模態語義理解上取得新突破,提出了知識增強的視覺 - 語言預訓練模型 ERNIE-ViL。ERNIE-ViL 首次將場景圖知識融入多模態預訓練, 刷新了 5 項多模態任務紀錄,并登頂權威榜單 VCR。
除了這些之外,近年來,百度 NLP 還在語義計算、閱讀理解、多輪對話、機器翻譯、開放平臺與數據等方向取得了突破性進展,并實現了大規模產業化應用。
對比百度所取得的 NLP 技術成果和 ACL 十年來的研究趨勢,我們可以發現,這家公司對于 NLP 研究趨勢的把握是非常精準的,而這些都得益于王海峰等領軍人物對該領域的長期洞察。
正如非洲經濟學家 Dambisa Moyo 在一本書里所提到的,“種一棵樹,最好的時間是十年前,其次是現在”。在 NLP 領域,百度既沒有錯過十年前的黃金 “種植期”,也沒有在十年的每一個“現在” 里松懈。尊重技術的發展規律,敏銳把握產業需求變遷,持續、堅定的投入,百度當年種下的一棵棵 NLP“小樹”已經長成一片樹林,而且還在不斷生長出新的樹苗。 在王海峰、吳華等研究者的帶領下,我們有理由期待百度 NLP 的下一個十年。
參考資料:《AI已來:讓中國AI走向世界的王海峰》
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
百度王海峰Quora精華整理:未來5
百度語言與知識新品劍指產業智能化
百度NLP十年布局:翻越認知智能高山,架起通往現實世界的橋
此行向遠:他們為人工智能雕刻靈魂
AACL成立王海峰出任創始主席!中國AI產業又一重大事件
百度AI人才圖鑒
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 青冈县| 安多县| 肥城市| 思茅市| 长沙县| 江山市| 南郑县| 思南县| 宿松县| 手机| 津市市| 舒兰市| 夹江县| 黑龙江省| 临桂县| 南宫市| 襄城县| 榆中县| 富阳市| 郯城县| 毕节市| 潼关县| 沁水县| 安溪县| 新安县| 勐海县| 寻甸| 陆丰市| 高雄市| 杭锦后旗| 淄博市| 罗田县| 莱州市| 额济纳旗| 车致| 朝阳县| 象山县| 栾城县| 成安县| 饶平县| 泸水县|