精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
“神秘”科研機構達摩院頂級科學家金榕,為您深度解密AI

編者按:

近年來 AI 發展迅猛,從最初萌芽到今天非常成功的應用,AI 有很多優秀的實踐,同時也遇到了非常多的挑戰,需要不斷地通過技術革新來解決這些困局。阿里巴巴達摩院高級研究員金榕將通過本文介紹當前 AI 已取得的應用實踐,解析 AI 的創新以及可探索的未來。

導語

達摩院創立于2017年,是阿里巴巴集團發展藍圖上濃墨重彩的一筆,這個致力于探索科技未知,以人類愿景為驅動力的部門,在5大前沿領域下設14個實驗室,開展基礎科學和創新性技術研究。達摩院的創立者馬云說,希望達摩院的研究員科學家可以成為“俠之大者,為國為民”,服務全球至少20億人口,面向未來、用科技解決未來的問題。

阿里巴巴集團副總裁、達摩院高級研究員金榕分析人工智能的核心技術發展與破局實踐。深度學習技術是什么?與AI核心技術有什么樣的關系?是如何影響并推動著核心AI技術三大方向的進展的?每一項核心AI技術應用到實際應用中遇到了什么樣的關鍵挑戰?創新技術如何破局?AI的未來又在哪里?讀完本文相信你會有所收獲。

金榕

阿里巴巴集團副總裁

達摩院高級研究員

美國密歇根州立大學終身教授

1.AI 技術背景介紹

目前的 AI 技術都是以深度學習為基礎,而深度學習完成如此復雜的學習過程需要兩個條件:

首先需要大量的數據,深度學習非常依賴數據挖掘技術,用于產生大量有效的訓練數據。

此外,深度學習還需要優化算法,因為深度學習要在非常復雜的網絡中找到最好的模型,用于匹配數據。

在最基礎的深度學習模型上,有三個主要的領域,即圖像視覺、語音交互和自然語言處理。其中,圖像視覺是由圖像處理和理解、自然人識別、視頻編解碼和內容分析、三維視覺等技術組成。語音交互是由語音識別、語音合成、語音硬件技術等組成。自然語言處理包括自然語言應用技術、語義理解計算、翻譯基礎計算等技術。所有這些技術組成了人工智能技術。綜上而言,人工智能是由深度學習和機器學習組成的。

  1. 機器學習的三個組成部分

機器學習的目標是利用有限的樣本對未知的目標函數求近似。任何機器學習模型都由三個部分組成,首先確定要學習的函數空間、然后確定使用的數據,用哪些訓練數據擬合機器學習模型,最后是找到優化算法,讓機器從函數空間中學習到最好的模型,即最佳匹配數據的模型。

  1. 深度學習

機器學習是考慮所有可能的函數,而深度學習只考慮一個特殊類的函數,神經網絡。在數據方面,深度學習的數據要求比普通模型的要求要高很多。在大數據支持的前提下,才能夠真正發揮深度學習的作用。傳統的優化只是做凸優化,而在深度學習場景中要處理非凸優化(通俗來講,凸優化有個非常重要的定理,即任何局部最優解即為全局最優解,而非凸優化問題被認為是非常難求解的,因為可行域集合可能存在無數個局部最優點)。因此,深度學習在三個部分中都會遇到非常大的挑戰。首先,神經網絡構成的函數空間非常不清楚。其次,由于大數據的復雜性,訓練數據的難度比傳統機器學習的難度要大。最后,非凸優化無論在理論或實踐層面都沒有很成型的模板。所以業界為了找到最佳的實踐也在做很多的實驗研究。

  1. 人工智能發展的關鍵:數據和算力

人工智能發展主要包含兩個關鍵點。首先可以利用大量豐富的“活”數據。利用“活”數據的應用有很多,如 2016 年谷歌的 AlphaGo 戰勝了圍棋世界冠軍。另外,AI 技術具備強大的計算能力,如目前非常火的自動駕駛技術,Google 的 Waymo 可以在非常長的距離下無需人為干預的進行自動駕駛。

但是這些技術早在 20 多年以前都有所實踐,在 1995 年,Backgammon 通過和自己下 1.5 萬盤棋,成為了世界冠軍。在 1994 年,Alvin 以每小時 70 英里的速度從美國的東海岸開到了西海岸。相比這 20 多年的發展,本質上的不同點是數據的數量級和計算能力的提升。如人臉識別技術現在都需要上億級別的訓練數據,而以前只有幾百萬張的數據。傳統的 AI 技術要依靠很多的 GPU 才能得到比較好的模型效果。

2.自然語言處理

  1. 自然語言處理模型

自然語言處理也有著很長的歷史,以前叫計算語言學。傳統的計算語言學方法使用統計學的語言概率模型構建自然語言模型。如下圖中的“中國鼓勵民營企業家投資國家基礎建設”,這一句話可以被解析為一個語言樹,分為主語、謂語、賓語、動詞和名詞等內容。也就是利用語言樹表達這句話的語法結構。另外,傳統的自然語言中常用的技術叫統計語言模型。如下圖中的拼音串 “ta shi yan jiu sheng wu de” 可以有多種可能的漢子串表達,人為判斷的話應該是最后一條“他是研究生物的”。實際上,人類大腦中通過大量閱讀會形成一個概念圖表,知道哪些表達是可能發生的,形成了一種統計語言模型。最典型的統計語言模型是 Bi-gram 模型,計算一個詞之后可能出現的詞的概率。但傳統的計算語言學方法存在模型欠精準,文本處理效果一般等弊端。

鑒于傳統方法的局限,深度學習可以用于自然語言處理中,其中最成功的的模型叫深度語言模型。與傳統方法的區別在于它將所有詞的上下文信息用張量表示,還可以雙向表示,即對未來和過去都做預測。此外,深度語言模型利用了 Transformer 結構,可以更好的捕捉詞和詞之間的關系。

  1. 自然語言模型 - 問題應用:阿里小蜜、閑魚賣家助理

問答應用傳統的方式是常見問答對(FAQ,Frequently Asked Questions)知識圖譜(KBQA,Knowledge Base Question Answering)。如下圖中的例子,問答對是一個數據庫,包含問題和回答。這種方式相對保守,且編輯問答對要求人對相應的領域有比較深的理解,很難擴大領域,且冷啟動慢。為了解決此問題,隨之出現了機器閱讀理解的技術,它可以直接自動從文檔中找到匹配問題的答案,通過深度語言模型將問題和文檔轉化為語義向量,從而找到最后的匹配答案。

目前問答應用廣泛應用于各大企業,如阿里小蜜,閑魚賣家助理,每天幫助百萬級的買家自動獲取商品和活動信息。

  1. 自然語言處理 - 機器翻譯:釘釘AI翻譯

另外一個比較成熟的 AI 技術的應用是機器翻譯。傳統的翻譯模型叫統計機器翻譯模型(SMT,Statistical Machine Translation),如下圖左側,從翻譯結果來看,統計機器翻譯模型容易產生錯譯,整體流暢度差,包含語法錯誤。引入深度學習的神經網絡機器學習模型(NMT,Neural Machine Translation)的結果錯譯少,流暢度也比較高,符合英文的語法規則。

在阿里巴巴業務中機器翻譯也得到了廣泛應用,如電商場景中對商品信息的翻譯,釘釘 AI 翻譯等。

3.語音技術

語音技術在很長一段時間內都被想象成是編碼的技術,將文字編譯成語音信號。而語音識別的過程是屬于解碼的過程。

通常語音識別有兩種模型,語言模型(Language Model)聲學模型(Acoustic Model)。語言模型主要的場景是預測某詞或詞序列的概率。聲學模型預測通過詞 W 的發音生成特征 X 的概率。

  1. 語音識別

(1)混合語音識別系統

傳統的混合語音識別系統叫 GMM-HMM,GMM 用于聲學模型, HMM 用于語言模型。即使在語音識別領域大家做了很長一段時間的努力,但還是無法達到人類語音識別水平。傳統的混合語音識別系統包含獨立優化的聲學模型,語言模型和語言學家設計的發音詞典。不難發現,傳統的語音識別系統的構建流程非常繁瑣,它需要多個部分并行開發,各個模型都是獨立優化的,導致最終的優化效果不盡人意。

(2)端到端的語音識別系統

基于傳統的語音識別系統遇到的問題,端到端的語音識別系統中將聲學模型、解碼器、語言模型、發音詞典都結合在一起,統一進行開發和優化,使得效果達到最優。實際的實驗結果明端到端語音識別系統可以進一步降低識別20+% 的錯誤率。此外,模型的達到會大大縮小,可以達到傳統語音識別模型的幾十分之一。而且端到端的語音識別系統還可以在云上發揮作用。

  1. 語音合成

語音合成大概分為幾個構成部分。首先是前端的文本分析,進行詞的拆分,識別break,這些會構成語言信息。之后,傳到后端通過聲學模型產生聲波

語音合成技術從最早的 GMM,到 2000 年的 HMM,再到 2013 年,基于深度學習的模型。而到了 2016 年,WaveNet 相較于之前的模型,在語音質量上有了質的飛躍。2017 年出現了端到端的語音合成模型。2018 年阿里巴巴的 Knowledge-aware Neural 模型不僅能夠產生很好的音質,還實現了大規模的模型壓縮和計算效率的提升,可以實時產生有效的合成語音。

語音合成一直存在一個較大的瓶頸,即定制化成本非常高。通常傳統的語音定制則需要專業的發言人,還要在錄音棚中錄制,人工精準的標注,而且需要大量的數據,一般大于 1 個小時。而如今,語音合成需要在個性化聲音定制方面做一些嘗試,任何的普通人只要通過手機進行錄制,即便在噪聲環境下,也可以完成個性化的聲音定制。如可以將車內導航系統的語音換成家人的聲音。

  1. 多模態語音交互方案

當人和人對話時,不只是在聽聲音,而是通過視覺和聽覺結合起來理解對方表達的意思。未來的語音交互系統中,還需要將多模態交互方案引入進來。目前的語音識別系統在嘈雜環境下的效果還是不盡人意的,在地鐵等嘈雜的公共環境中還是會遇到較大的挑戰。阿里達摩院希望將語音識別和機器視覺進行結合,采用多模態的人機交互技術將語音識別與計算機視覺結合的方式,讓機器人看著對方,聽對方說話,就可以在嘈雜的環境中精準識別用戶發出的聲音。

舉一個例子,假如在地鐵站買票,和賣票機器進行對話,同時因為后面也排著很多人,他們也會說話。這時通過視覺的方式,可以判斷哪一個人臉更大,從而識別買票的人說的話。

  1. 音視覺融合技術應用:語音售票機、語音點餐機、智能前臺

音視覺融合技術已經在很多生活場景中得到廣泛應用。達摩院開發的全球首臺地鐵語音售票機,覆蓋了上海的主要交通樞紐。開發的多模態技術的智能點餐機達成了 3 天內完成了4500單的工作量。2019 年 8 月釘釘推出了搭載多模態交互技術的智能辦公硬件新品M2S,可以在嘈雜的聲音環境下使得交互更加有效。

釘釘推出M2S智能無人前臺

4.視覺技術

  1. 圖像搜索和其應用:拍立淘、天巡

視覺技術中最核心的就是圖像搜索的識別,同樣也經歷了很長的發展過程。在早期的 90 年代初期是基于全局信息的底層特征進行搜索,如將圖像顏色的信息做分布,但這種方法的精度非常糟糕,如ImageNet Top 5只達到了 30%。到 2000 年初,大家開始基于局部的特征編碼特征做圖像的搜索和識別,精度達到了 70%。但是其中局部信息都是由人工確定,如果出現人沒有見過的特征,則無法有效提取。到了 2010 年左右,大家開始使用深度學習的技術,自動地提取局部信息特征,從而精度達到了 92%,使得圖像搜索技術完全可以應用于商業場景。

目前,圖像搜索面臨的挑戰主要有三點,首先數據越來越多,10 億級別的訓練數據,同時還要處理上億級別的分類,而且模型的復雜度也越來越高。

為了解決以上挑戰,阿里推出了九鼎,一種大規模 AI訓練引擎。九鼎是大規模訓練載體和專家系統,涵蓋了視覺、NLP 等領域。九鼎由兩部分組成,首先是通訊,因為所有大規模訓練都需要多級多卡,如何有效的通過多級多卡提升模型的訓練,減少通訊的代價是較為重要的問題。另外一部分是優化算法部分,如何做好分布式的優化問題同樣也是目前遇到的較大的挑戰。這種大規模訓練引擎可以處理大規模數據的分類并達到很好的訓練效果。ImageNet ResNet50 可以在 2.8 分鐘內就可以訓練完成。若處理 1 億級的 ID,10 億級別的圖片分類可以在 7 天內訓練完成。

圖像搜索在實際生活場景中被廣泛應用。目前,拍立淘可以處理超大規模的圖像識別和搜索任務,其中有4億+ 的商品,30億+的圖片,和2000 萬的活躍用戶。可以識別 3000萬+的實體,覆蓋了 SKU 商品,動物,植物,車輛等。

天巡是用于遙感圖像識別分析的應用,可以進行大規模的遙感影像訓練,拖動遙感圖像的路網提取,地物分類,新增建筑物識別,違章建筑識別等任務。

  1. 圖像分割:電商生成產品圖

圖像分割指的是從一張圖中將目標物體分割出來。傳統的圖像分割方法是如下圖左側,分割成很多像素,看每個像素之間的相似度,相似的像素聚合起來一些區域,再輸出。但傳統的圖像分割技術無法學習到語義的信息,只能知道圖中的目標,但不知道目標是什么物體。另外,因為采用了無監督的學習,在分割邊角時精度不高。

基于深度學習的分割技術基于監督學習,將很多訓練樣本接入技術中。同時還可以得到分割的結果和分類的結果,理解每個像素的實例歸屬。而且在大規模的數據前提下,編碼器和解碼器模型可以精細的分割目標的邊緣。

阿里將圖像分割技術應用于淘系的全類目商品中,可以自動生成商品白底圖,提速商品發布。

另外,還可以用于服飾的素材拼圖場景中,商家會提供模特素材,利用分割技術,將模特身上的服飾進行分割,自由組合搭配。

  1. 模型壓縮:盒馬自助收銀機

目前,深度學習技術已經廣泛應用于多種行業中,同時也遇到了很多挑戰。首先,深度學習模型越來越復雜,其中計算量在不斷增長,達到了20G FLOPS+,還有不斷增加的連接。模型變大那就需要較大的存儲量,找到合適的設備將是非常困難的事情。即使有了設備,模型也需要跑很長的時間。此時模型的壓縮技術就顯得非常重要,它可以將幾十 G 的模型壓縮到幾十M,用戶可以在任何的設備上運行模型,無需等待很長時間。

模型壓縮本質上是改變模型的結構。阿里提出出的 cargotainer 方法,可以更快速地獲取準確的偽梯度,在 2019 年 ICCV 大會舉辦的低功能耗圖像識別挑戰(Low-Power Image Recognition)中獲得了冠軍。

基于FPGA的解決方案在盒馬自助收銀機得到了應用,利用機器視覺方法識別是否漏掃商品,GPU 成本縮小到1/2。同時自研的高效檢測算法,可以在 1 秒內完成多種行為分析任務,掃碼動作分類準確度達 90% 以上,場景分類準確度達 95% 以上。

  1. 目標檢測

另外,機器視覺技術可以應用與視頻信息的結構化任務中,檢測目標物體、跟蹤識別。目標檢測和跟蹤識別任務主要的處理流程如下圖,對視頻進行解碼,目標檢測,目標跟蹤,高維特征提取,屬性提取,存儲為結構化數據。

目標檢測技術也出現了很長一段時間,傳統的檢測方法是 HoG、DPM 等,依靠人工選擇特征,這種方法的問題在于魯棒性差,無法泛化,計算量冗余度高。而現在也出現了很多基于深度學習的目標檢測方法,如Faster RCNN、SSD、RetinaNet、FCOS 等。它們的優點是機器可以替代人工識別的特征,可以對物體的尺寸,外觀的變化更加魯棒,泛化性能好。

  1. 目標跟蹤

目標識別出來后還要進行跟蹤。在目標跟蹤中遇到的挑戰是人是動態的,在行動的過程中會被其它物體或人遮擋,遮擋過程中會丟失目標,如下圖中的紅色衣服的人會被紫色衣服的人遮擋。傳統的方法是根據位置進行匹配,但在上述擁擠場景中,預測位置難以精確,匹配很容易出現錯誤。而基于深度學習的方法是抽取外貌特征進行匹配,預測結果更加魯棒。

目標跟蹤的應用場景一般在新零售場景中。購物中心和品牌門店需要對客流及場內行為進行深入洞察,構建線下人、貨和場地的數據關聯。提升線下運營的管理效率,提升消費者體驗,最終促進業務的增長。

另外,目標跟蹤技術還可以用于案發場景下。案發場景中的視頻都是非常長時間的內容,難以人為檢查識別。如果要實現將整個 24 小時的信息濃縮在幾分鐘內看完,其中需要利用目標檢測和目標跟蹤的技術,識別人和物,跟蹤軌跡。將不同時間的軌跡一起播放,如果對某一個或某一類軌跡感興趣可以點擊進去,分類檢索,大大減少了觀看視頻的時間。

結語

可以發現 AI 技術的發展離不開大量數據的支持,因此目前的人工智能技術還是以數據為驅動。如機器翻譯和專業的翻譯人員相比,人在翻譯的時候并不是完全以數據為驅動,不需要閱讀上億的數據,更多是基于已有的知識,高效地處理已有的信息。所以在未來,如何讓機器從數據驅動走向知識驅動,還需要進行不斷的探索和努力。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
深度!十分鐘讀完人工智能的三生三世
了解人工智能,看這篇報告就夠了.收藏(60頁人工智能報告全文)
人工智能:主導下一輪科技創新紅利
聚焦2016,關于語音識別、圖像識別及大數據!
深度解析音頻檢測背后的技術 | 硬創公開課
語音識別的前世今生:深度學習徹底改變對話式人工智能
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 临沧市| 镇江市| 吉安市| 南宁市| 穆棱市| 那曲县| 天台县| 息烽县| 兴隆县| 长丰县| 眉山市| 禄劝| 遂宁市| 芮城县| 宜丰县| 潜江市| 墨竹工卡县| 科技| 衡水市| 安达市| 庆安县| 枣强县| 墨竹工卡县| 布拖县| 通江县| 东方市| 巴东县| 饶河县| 凤城市| 定州市| 刚察县| 昌都县| 长岛县| 丰县| 正镶白旗| 宜昌市| 安庆市| 巴林右旗| 广灵县| 洱源县| 安乡县|