盡管人工智能的熱點此起彼伏,但毫無疑問的是,自然語言處理始終是實現智能、自然人機交互愿景里一塊重要的技術基石。而機器閱讀理解則可以被視為是自然語言處理領域皇冠上的明珠。
簡單的說,機器閱讀理解,是自然語言處理技術中,繼語音判斷、語義理解之后最大的挑戰:讓智能體理解全文語境。所以機器閱讀在語音助手、智能客服等領域有非常豐富的落地場景,也已有了大量的應用。
但是作為人工智能發展中的一項關鍵性技術,機器閱讀無論是技術積累,還是人才的儲備都遠不夠,與該技術的前景形成了巨大的反差。正是為了彌補這樣的落差,近日開啟的浦發·百度智慧金融極客挑戰賽,不僅在證明機器閱讀的重要性,也在積極為培養機器閱讀在金融專業人才發揮價值。
什么是機器閱讀,它到底有多重要?
人工智能作為一種從計算機科學下的分支,一是智能體先天具備的是運算能力,而希望進行仿人類智慧的智能模擬,第二步就是模仿人類的感知。今天我們看到的機器視覺、語音識別、語義理解,都是在做這件事。而第三步,就是讓AI產生理解力,這就是機器閱讀。
因為,機器閱讀理解需要掌握指定文章段落中的信息,將自然語言映射到機器碼,用AI理解非結構化文檔,幫助人類快速閱讀專業文檔,讓知識獲取不收人腦的限制。
所以,在于處理閱讀理解相關問題時,AI不只是要運算和記錄,而是要主動去分析和理解。閱讀理解問題,不只是要處理語音和簡單的語義,而是要理解和關注詞匯、語句、篇章結構、思維邏輯、輔助語句和關鍵句等等元素構成的復雜組織網絡。
不難理解,機器閱讀是人工智能真正落地行業的一個關鍵。在人機交互自動問答領域更是有里程碑的作用,能使得語義理解、人機交互技術大規模落地應用。
尤其是一些特定的行業應用場景中,機器閱讀的價值特別明顯,例如在金融客服咨詢的應用場景中,客戶針對某個具體問題,可以直接向AI客服提問,而AI客服就可以把這個問題當,作為一道閱讀理解問題來進行解決方案回饋。它和傳統的客服機器人的差別在于:AI客服可以向客戶提供非模板式的反饋,甚至于當AI在這些能力上超越人工,它可以完全替代人工客服。
與此類似的,大部分還必須由人工完成的規則、對話、服務信息類的相關理解工作,都是可以通過機器閱讀來進行改變的行業。
客觀的說,機器閱讀的商業價值不僅僅在于目前有限的應用場景,而是將人機交互的范圍進一步擴大,讓機器智能可以開始捕捉人與人交互的邏輯。
這場競賽為機器閱讀在智慧金融落地意義深遠
我們知道,圍繞人工智能技術的競賽非常多,針對機器閱讀也有很多知名的賽事,但世界機器閱讀理解領域經典賽事主要集中在英文領域,比如由斯坦福大學發起的SQuAD挑戰賽以及微軟的MS MARCO機器閱讀理解測試。
百度則開啟了中文機器閱讀競賽的先河。今年的早些時候,百度公司就聯手中國中文信息學會(CIPS)、中國計算機學會(CCF)和舉辦了“2018機器閱讀理解技術競賽”,推動語言理解和人工智能領域技術和應用的發展。比賽的意義主要是培養機器閱讀的人才,為研究者提供強大的學習驅動力與創造力。降低技術門檻,吸引并培養更多的技術人才,推動我國人工智能的學術和產業的發展。
而浦發·百度智慧金融極客挑戰賽則是,百度在機器閱讀與金融行業的應用相結合,開展的更具有落地意義的中文機器閱讀技術競賽。該挑戰賽立足“金融企業數字化轉型”的時代大背景,對機器閱讀在智慧金融的落地更有實際意義。
據了解,所有參賽團隊均需完成創意路演、黑客馬拉松賽題。其中創意路演不限定范圍,不指定題目,題目由參賽者自擬,但要求體現技術實現手段和實際應用創意,內容要體現人工智能在金融業的應用,探索運用所學技術解決或改進目前金融發展過程中所面臨的痛點和挑戰。而黑客馬拉松的賽題將聚焦于金融領域機器閱讀理解,要求所有選手現場給出解決方案并編寫程序實現。
這項挑戰賽對機器閱讀在金融行業的落地有兩點意義。
其一,是面向金融行業的具體應用場景的大規模中文閱讀理解數據集,可以引導參賽者關注人工智能在金融業的應用。這項賽的成功,未來可以復制到其他行業,進一步推動機器閱讀在更多場景上的落地。百度作為主要的主辦方,起到了推動技術發展的作用。
其二,機器閱讀的專業人才稀少,而面向具體行業的機器閱讀人才更為稀少。這項賽事,鼓勵通過團隊協作,綜合運用所學知識,圍繞金融應用場景,實現理論向應用的轉化,實現了賦能AI行業的優質人才,推進中國AI產業的發展,讓越來越多的中國面孔亮相于人工智能領域的世界舞臺。
百度通過這場比賽傳遞了哪些信息?
作為全球頂尖的人工智能公司,百度在人工智能版圖上的地位毋庸置疑。在機器閱讀等核心技術的發展上,百度都是積極的推動者。這項賽事背后,百度表現出哪些應有的價值?
第一,打破了頂級機器閱讀競賽只在英文領域的局限。目前機器閱讀理解的難點有兩個,分別是數據和算法,過去此類技術的訓練和競賽都集中在英文領域,但這種尷尬正在逐漸打破。隨著百度主導的各項中文機器閱讀競賽的出現,圍繞中國環境的機器閱讀有望進入發展的快車道。
第二,用開放賦能AI行業,幫助研究人員突破算法難題。百度DuReader 2.0數據集是最好的中文閱讀理解數據集之一,現已對大眾全面開放,幫助研究人員研究新的算法、檢驗自身機器閱讀理解技術能力。
第三,百度自身也機器閱讀技術上的引領者。比如今年2月21 日,百度自然語言處理團隊研發的V-Net 模型以46. 15的Rouge-L得分登上微軟的 MS MARCO 機器閱讀理解測試排行榜首。證明了百度的機器閱讀技術水平處于全球領先地位。
最后,百度這項針對智慧金融啟動的機器閱讀比賽,要比純粹的技術競賽,更為落地,有更多行業屬性,更易于復制的發展。百度正通過自身的努力和專業人才培養,加速AI技術與商業結合的進程。
文/鄭凱
科技正能量,推動新科技