精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
百度人工智能詳細(xì)分析

本文源自 太平洋證券 人工智能專題研究之一

證券分析師 王文龍、徐中華

信息化顧問團(tuán) 楊凱 整理

百度AI平臺將逐步開放,助力構(gòu)建百度AI生態(tài)圈

“云+大腦”打磨升級構(gòu)成百度AI平臺

百度AI開發(fā)者大會(Baidu Create 2017)上,百度AI平臺架構(gòu)圖首次完整亮相,全新開放了視頻、語音、AR/VR、機(jī)器人視覺、自然語音處理等五大類目共14項全新能力,此次開放的技術(shù)能力總共有60個,是目前最全面的AI技術(shù)開放平臺。百度AI平臺由百度大腦及百度云組成,分為云、大數(shù)據(jù)、算法層、感知層、認(rèn)知層、平臺層五大層次,核心能力的開放已達(dá)60余項。

圖表1:百度AI平臺的架構(gòu)

作為百度AI平臺的核心,百度大腦由算法層、感知層、認(rèn)知層、平臺層共同組成,是業(yè)界第一個完整清晰地把認(rèn)知層和感知層放在一起的人工智能平臺。

  • 算法層包括大數(shù)據(jù)、深度學(xué)習(xí),是百度大腦的底層基礎(chǔ)。

  • 感知層包括語音識別、圖像識別、視頻理解和增強(qiáng)現(xiàn)實/虛擬現(xiàn)實4大核心技術(shù)能力,賦予機(jī)器“聽懂、看懂”的能力;

  • 認(rèn)知層包括領(lǐng)先的自然語言處理、知識圖譜、用戶畫像能力,賦予機(jī)器“理解”能力。

  • 平臺層即百度AI開放平臺,集合了百度所有的AI能力并將逐漸開放給所有開發(fā)者。

圖表2:百度大腦各層次能力

多領(lǐng)域在人工智能方向進(jìn)行戰(zhàn)略構(gòu)建

百度自2013年1月組建專注于Deep Learning(深度學(xué)習(xí))的研究院—Institute of Deep Learning(簡稱IDL)開始,百度便已經(jīng)積極布局人工智能:

  • 機(jī)構(gòu)設(shè)立方面:公司先后成立自然語言處理部(2010年)、百度硅谷人工智能實驗室(2014年)、自動駕駛事業(yè)部(2015年)、度秘事業(yè)部(2017年)、AR實驗室(2017年)、智能駕駛事業(yè)群組(IDG,2017年)、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程實驗室(2017年)等。其中:今年3月22日,百度通過內(nèi)部郵件宣布進(jìn)一步深度整合包括NLP、KG、IDL、Speech、Big Data等在內(nèi)的百度核心技術(shù),組成百度AI技術(shù)平臺體系(Artificial Intelligence Group,簡稱“AIG”)。近期,百度對AIG進(jìn)行了調(diào)整:

    • 單獨成立智慧機(jī)場業(yè)務(wù)部、智能客服與金牌銷售業(yè)務(wù)部。智慧機(jī)場業(yè)務(wù)部重點面向航空服務(wù)領(lǐng)域;智能客服與金牌銷售業(yè)務(wù)部,融合語音識別、自然語言處理等前沿技術(shù),提升企業(yè)與客戶電話溝通中的效率和效能。該技術(shù)通過對呼叫中心的通話歷史語音進(jìn)行分析,提取客戶畫像、優(yōu)秀銷售經(jīng)驗,并在通話過程中進(jìn)行實時語音識別及分析等方式,結(jié)合當(dāng)前客戶情況與銷售特點,個性化推薦適合的銷售思路與話術(shù)要點。

    • 強(qiáng)化了AI應(yīng)用技術(shù)研發(fā),原隸屬于研究院的幾個技術(shù)團(tuán)隊升格為獨立的技術(shù)部門,包括視覺技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實技術(shù)部等。

    • 成立AI技術(shù)平臺與生態(tài)部,進(jìn)一步整合推動百度所擁有的自然語言處理、知識圖譜、深度學(xué)習(xí)、語音圖像、大數(shù)據(jù)等技術(shù)。

  • 人才儲備方面:2017年,百度與北京航空航天大學(xué)合作設(shè)立人工智能專業(yè);目前,BAT的AI人才布局中百度總數(shù)領(lǐng)先,占比2.54%。

  • 技術(shù)落地方面:語音開放平臺上線(2013年)、DeepSpeech深度語音識別系統(tǒng)(2014年)、小度機(jī)器人(2014年)、全球首個基于深度學(xué)習(xí)的大規(guī)模在線翻譯系統(tǒng)(2015年)、機(jī)器人助理“度秘”(2015年)、無人駕駛汽車相關(guān)技術(shù)(2015年)、AR技術(shù)幫助伊利等零售商進(jìn)行營銷(2016年)、針對移動設(shè)備打造的增強(qiáng)現(xiàn)實平臺“度視”(2016年)、醫(yī)療大腦等百度大腦(2016年)、百度輸入法4.0引入人工智能(2016年)、百度AR先后與歐萊雅合作,帶來全新廣告營銷方式(2016年)、與KFC合智能推薦點餐(2016年)、與神農(nóng)架合作AR觀山(2016年)、《但丁密碼》AR面具海報(2016年)、G-1智能高清機(jī)頂盒(2016年)、烏鎮(zhèn)世界互聯(lián)網(wǎng)大會人臉識別閘機(jī)(2016年)、海爾與美的搭載DuerOS打造智能家居(2017年)、家庭陪伴型機(jī)器人“分身魚”(2017年)、國航用人工智能進(jìn)行人臉識別(2017年)。

  • 資本投入方面:自2016年開始,公司先后投資美國科技公司ZestFinance、激光雷達(dá)公司Velodyne LiDAR、人工智能語音助手平臺開發(fā)商Raven Tech、計算機(jī)視覺公司xPerception、以色列視頻捕捉技術(shù)公司Pixellot、投資上海漢楓科技及室內(nèi)導(dǎo)航公司IndoorAtlas、參股新西蘭VR/AR/3D成像公司8i、收購專注于語音喚醒和自然語言理解的人工智能創(chuàng)業(yè)公司KITT.AI(2017年)等。

2017年1月,陸奇先生加入百度擔(dān)任集團(tuán)總裁兼CEO,圍繞人工智能在集團(tuán)架構(gòu)、業(yè)務(wù)以及人事方面大刀闊斧進(jìn)行改革,包括將自動駕駛事業(yè)部(L4)、智能汽車事業(yè)部(L3)、車聯(lián)網(wǎng)業(yè)務(wù)(Car Life etc)合并組建新的智能駕駛事業(yè)群組(IDG),并向汽車行業(yè)及自動駕駛領(lǐng)域的合作伙伴提供一款名叫Apollo的開放軟件平臺。

國外方面,Amazon、Facebook布局人工智能主要是為了智能其各自的傳統(tǒng)主業(yè)以使自身在各自領(lǐng)域保持競爭力,而Google及IBM則是從集團(tuán)層面對其人工智能生態(tài)建設(shè)進(jìn)行了整體規(guī)劃。國內(nèi)方面,阿里巴巴在人工智能方面的行動主要是針對具體的應(yīng)用場景進(jìn)行智能化,而騰訊則主要是通過在各事業(yè)部組建AI團(tuán)隊來推進(jìn)集團(tuán)人工智能的發(fā)展。

圖表3:其他科技巨頭在AI的布局概況

公司名稱布局細(xì)節(jié)
Google1、谷歌大腦:創(chuàng)建于2011年,目標(biāo)是創(chuàng)造更智能的軟件和系統(tǒng),從而改善人的生活。研究領(lǐng)域包括機(jī)器學(xué)習(xí)算法和技術(shù)、用于機(jī)器學(xué)習(xí)的計算機(jī)系統(tǒng)、自然語言理解、感知、醫(yī)療、機(jī)器人、音樂與藝術(shù)生成等。TPU、TensorFlow均來自谷歌大腦。2、谷歌NLU:專注于自然語言理解的團(tuán)隊,與谷歌大腦是并列存在的關(guān)系。最新研究興趣包括句法、語篇、對話、多語言建模、情緒分析、問答、概述、使用有標(biāo)記和未標(biāo)記的數(shù)據(jù)與最先進(jìn)的模型和間接監(jiān)督來構(gòu)建更好的學(xué)習(xí)系統(tǒng)。目前公開的最重要的成果就是被稱為“世界準(zhǔn)確度最高的自然語言解析器SyntaxNet”。這是一個基于TensorFlow的自然語言理解神經(jīng)網(wǎng)絡(luò)。谷歌在該平臺上訓(xùn)練的模型的語言理解準(zhǔn)確率超過90%。3、谷歌歐洲研究院:2016年6月在蘇黎世成立,研究領(lǐng)域為機(jī)器學(xué)習(xí)、自然語言理解、機(jī)器感知及數(shù)據(jù)壓縮。4、DeepMind:2010年在英國成立,2014年被谷歌以4億英鎊收購,收購后仍保持獨立運行,專注于深度強(qiáng)化學(xué)習(xí),研究目標(biāo)是通用人工智能。AlphaGo是DeepMind最知名的項目。2017年7月5日,DeepMind表示將在加拿大埃德蒙頓開設(shè)第一家AI研究中心。5、機(jī)器學(xué)習(xí)忍者項目:從谷歌內(nèi)部團(tuán)隊挑選有天賦的約20名程序員,為期6個月的人工智能人才培養(yǎng)項目。與谷歌大腦有合作關(guān)系。6、工程師團(tuán)隊:谷歌25000名工程師中,有數(shù)以千計的人熟練掌握機(jī)器學(xué)習(xí)。7、應(yīng)用:谷歌云機(jī)器學(xué)習(xí)API、翻譯、Waymo(前谷歌無人車部門,現(xiàn)在是Alphabet子公司)、Inbox等。8、收購:語言與圖像識別、生物識別、深度學(xué)習(xí)、智能家居、機(jī)器人領(lǐng)域的公司。
Facebook1、Facebook人工智能實驗室(FAIR):2013年12月成立,是Facebook的AI基礎(chǔ)研究實驗室,目標(biāo)是推動機(jī)器智能領(lǐng)域的進(jìn)步。這是Facebook人工智能技術(shù)的核心部門。2、工程團(tuán)隊:直接負(fù)責(zé)對接到Facebook的核心功能,比如廣告、搜索、新聞流、密鑰和Instagram。3、FBLearner Flow平臺:于2014年底在FAIR內(nèi)部研究,后轉(zhuǎn)交給AML團(tuán)隊,是Facebook研發(fā)基于AI的產(chǎn)品的支柱。這個平臺能幫助任何工程師輕松地開啟和管理機(jī)器學(xué)習(xí)實驗,而無需處理硬件基礎(chǔ)架構(gòu)。每月運行約120萬的實驗。4、應(yīng)用機(jī)器學(xué)習(xí)部門(AML):成立于2015年9月,是科學(xué)突破與產(chǎn)品使用連接起來的部門。包括4個主要團(tuán)隊:核心機(jī)器學(xué)習(xí)、計算攝影、語言技術(shù)及自然語音識別。5、Language Technology團(tuán)隊:該團(tuán)隊在AML保護(hù)傘下,專注于開發(fā)翻譯、語音識別和自然語言理解,是部署實際軟件的地方,而FAIR是推動Facebook人工智能實驗的地方。6、Lumos:2016年11月首次披露,構(gòu)建在FBLearnerFlow之上,是專用語圖像和視頻理解的AI平臺。7、收購:圖像和語言理解領(lǐng)域的公司。
IBM1、商業(yè)解決方案Watson:2014年1月初,IBM宣布組建“Watson Group”,旨在進(jìn)一步開發(fā)、商用及增強(qiáng)“Watson”及其他認(rèn)知技術(shù)。同時,IBM還推出了兩項Watson數(shù)字顧問服務(wù),一項用于幫助企業(yè)從海量數(shù)據(jù)獲得洞見,另一項則旨在使得數(shù)據(jù)可視化。2014年3月,Waston開始與紐約基因中心合作。5月,IBM通過Watson收購了人工智能創(chuàng)業(yè)公司Cognea,該公司為用戶提供個性化虛擬助手服務(wù)。2015年,Watson被部署在IBM 2014年收購的云計算基礎(chǔ)設(shè)施業(yè)務(wù)Softlayer上。2016年,以腫瘤為重心,Watson在慢病管理、精準(zhǔn)醫(yī)療、體外檢測等九大醫(yī)療領(lǐng)域中實現(xiàn)了突破。2、AI技術(shù):語音語義、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(收購了AIchemyAPI)3、云平臺:IBM Bluemix開放云技術(shù)平臺(PaaS+7種IBM Watson服務(wù))、機(jī)器學(xué)習(xí)平臺SystemML4、硬件:TrueNorth(SyNapse成果)5、產(chǎn)業(yè)布局:深藍(lán)、與蘋果、軟銀進(jìn)行智能機(jī)器人合作、VR游戲、物聯(lián)網(wǎng)、醫(yī)療服務(wù)6、收購:認(rèn)知計算、搜索、人機(jī)對話、數(shù)據(jù)分析領(lǐng)域的公司
Amazon1、服務(wù):Amazon Lex、Amazon Polly以及Amazon Rekognition,分別定位于可編寫自然人機(jī)交互、語音轉(zhuǎn)換服務(wù)以及圖像識別。2、平臺:Amazon ML、Spark & EMR、Kinesis流數(shù)據(jù)處理平臺、Batch批次處理、ECS3、引擎:MXNet、TensorFlow、Caffe、Theano、Pytorch、CNTK4、基礎(chǔ)設(shè)施:GPU、CPU、IoT、移動5、1492團(tuán)隊:旨在發(fā)掘醫(yī)療行業(yè)中的新機(jī)會,同時關(guān)注軟件和硬件項目。目前,他們正在試圖從傳統(tǒng)電子醫(yī)療檔案中挖取和整合數(shù)據(jù);希望建立一個遠(yuǎn)程醫(yī)療的平臺;探索基于Echo和Dash Wand的醫(yī)療應(yīng)用等6、收購:圖像識別、圖像與語言理解領(lǐng)域的公司
阿里巴巴1、AI部門:iDST(數(shù)據(jù)科學(xué)與技術(shù)研究院)、阿里人工智能實驗室、NASA計劃、參與“工業(yè)大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室”、與清華北大一起搭建大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室2、AI產(chǎn)品線:ET大腦(工業(yè)、醫(yī)療、環(huán)境)、ET基礎(chǔ)服務(wù)(機(jī)器學(xué)習(xí)、智能語音、人臉識別、印刷文字識別、人機(jī)對話)3、資本布局:戰(zhàn)略投資日本機(jī)器人公司SBRH、入股山西嘉世達(dá)機(jī)器人
騰訊1、AI機(jī)構(gòu):人工智能實驗室(AI Lab,負(fù)責(zé)基礎(chǔ)性研究工作)、各個事業(yè)部都有AI團(tuán)隊(負(fù)責(zé)AI應(yīng)用研究)2、應(yīng)用方向:游戲AI、社交AI、內(nèi)容AI、工具型AI3、智能產(chǎn)品:小冰、小微、云搜和文智、優(yōu)圖人臉識別、QQ物聯(lián)、微信硬件平臺、叮當(dāng)智能語音助手、絕藝(類似AlphaGo)、深度學(xué)習(xí)平臺DI-X4、資本布局:投資Diffbot、iCarbonX(碳云智能)、CloudMedX、Skymind、Scaled Inference;戰(zhàn)略入股搜狗;購買特斯拉5%股票。

可以看到,百度在AI方面的布局已經(jīng)相對完善,無論是從AI部門的設(shè)置、集團(tuán)戰(zhàn)略定位,還是從開放的各類技術(shù)平臺,均能夠幫助百度更快地構(gòu)建生態(tài)圈,以此帶來更多場景應(yīng)用的落地。

AI平臺開放、百度生態(tài)建設(shè)延伸至端

百度AI平臺以百度智能云為基礎(chǔ)、百度大腦為核心,目前開放DuerOS和Apollo兩大平臺向終端下沉,與云端一起初步構(gòu)建起AI生態(tài)圈。同時,深度學(xué)習(xí)開放平臺PaddlePaddle具備易用、高效、靈活和可伸縮等特點,使程序員可以快速應(yīng)用深度學(xué)習(xí)模型來解決各種實際問題,加快實驗室技術(shù)在各類場景的應(yīng)用落地,促進(jìn)百度AI生態(tài)的擴(kuò)散。

圖表4:百度AI平臺與生態(tài)構(gòu)建

百度AI平臺的開源有助于百度吸引更多優(yōu)秀的開發(fā)者參與進(jìn)來,在幫助完善AI平臺功能的同時,培養(yǎng)用戶的使用習(xí)慣,構(gòu)建起開發(fā)者生態(tài)。此外,還可以通過開發(fā)者使實驗室技術(shù)更快地在具體場景落地。百度可憑借開放的平臺尋找到更多的合作者,構(gòu)建起合作伙伴生態(tài),共同推出行業(yè)解決方案和生態(tài)合作方案。

DuerOS:開放的對話式人工智能系統(tǒng)

百度在2017CES上推出了DuerOS。此外,百度還發(fā)布了DuerOS智慧芯片,具有:“三低、三高”的特點—低成本、低門檻、低消耗、高安全、高集成、高附加。這款DuerOS智慧芯片已將DuerOS與紫光展銳RDA5981完美集成;還采用了ARM公司mbed OS內(nèi)核及其安全網(wǎng)絡(luò)協(xié)議棧,實現(xiàn)了與云端的安全連接,降低了設(shè)備商應(yīng)用開發(fā)門檻。

7月15日,在Baidu Create 2017上,度秘事業(yè)部總經(jīng)理景鯤發(fā)布了DuerOS開放平臺。該平臺以DuerOS對話系統(tǒng)為核心層,應(yīng)用層為智能設(shè)備開放平臺,能力層為技能開放平臺。其中技能開放平臺目前已經(jīng)擁有10大品類、100多項原生技能且支持第三方資源和內(nèi)容接入。作為中國版Alexa,未來百度將以DuerOS為切入點,進(jìn)一步推動集團(tuán)人工智能生態(tài)的構(gòu)建。

圖表5:DuerOS開放平臺整體架構(gòu)

【參考資料:Alexa】

Alexa是Amazon推出的一款語音助手,可以對語音指令進(jìn)行處理并做出語音回復(fù)或執(zhí)行相應(yīng)操作,截止2017年6月底,Alexa語音助手已擁有超過1.5萬項技能,比官方2月份公布的1萬多項增長了一半多。

圖表6:語音助手技能數(shù)量(單位:項)

目前Alexa主要應(yīng)用于智能音箱、智能家居、可穿戴設(shè)備、購物助手等。亞馬遜允許設(shè)備制造商通過使用Alexa語音服務(wù)(AVS)將Alexa不斷增長的語音功能集成到自己的連接產(chǎn)品中。該語音服務(wù)(AVS)是一種云服務(wù),提供基于云的自動語音識別(ASR)和自然語言理解(NLP)。

Alexa的語音識別系統(tǒng)框架主要包括四大塊:信號處理(Signal processing)、聲學(xué)模型(Acoustic model)、解碼器(Decoder)和后處理(Post processing)。

首先將收集來的聲音進(jìn)行一些信號處理,將語音信號轉(zhuǎn)化到頻域,每10毫秒的語音生成一個特征向量,發(fā)送到后面的聲學(xué)模型。聲學(xué)模型把音頻分成不同的音素。接下來解碼器可以解出概率最高的詞串。最后一步是后處理,把單詞組合成易讀取的文本。

圖表7:Alexa語音識別步驟

其中,聲學(xué)模型就是一個分類器,輸入的是向量,輸出的是音頻類別對應(yīng)的概率。該模型是一個典型的神經(jīng)網(wǎng)絡(luò),底部是輸入的信息,隱藏層將向量轉(zhuǎn)化到最后一層里的音素概率。

一個美式英語的Alexa語音識別系統(tǒng),會輸出美式英語的音素。以美式英語為基礎(chǔ)的Echo,錄了幾千小時的美式英語語音來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,這個成本非常高。但是,世界上還有很多其它的語言,比如德語,如果再從頭用幾千小時的德語語音訓(xùn)練,成本太高。所以,這個神經(jīng)網(wǎng)絡(luò)模型有趣的地方就是可以“遷移學(xué)習(xí)”,它可以保持原有模型中其它層不變,只把最后一層換成德語。兩種不同的語言,音素大部分是不一樣的,但是仍然有不少相同的部分。因此,僅使用少量的德語語音數(shù)據(jù),就可以在稍作改變的模型上得到較準(zhǔn)確的德語結(jié)果。

現(xiàn)在,DuerOS可以將搭載Alexa的智能音箱變成能聽懂中文。未來,百度將把DuerOS打造成AI時代的“安卓”,為AI開發(fā)者鋪墊好技術(shù)基礎(chǔ),幫助其更方便快捷地開發(fā)智能語音交互設(shè)備,從而打造以DuerOS為入口的智能語音生態(tài)鏈。

Apollo:自動駕駛開放平臺

百度AI的核心突破口當(dāng)屬自動駕駛,首先是成立智能駕駛事業(yè)群組(IDG)。緊接著于今年4月在上海車展上發(fā)布了“Apollo”計劃,向汽車行業(yè)及自動駕駛領(lǐng)域的合作伙伴提供開放的、完整的、安全的軟件平臺,幫助他們快速搭建一套屬于自己的自動駕駛系統(tǒng)。Apollo開放平臺的發(fā)布標(biāo)志著百度在人工智能的系統(tǒng)級開放進(jìn)程更進(jìn)一步,這也是全球范圍內(nèi)自動駕駛技術(shù)的第一次系統(tǒng)級開放。百度將致力于將Apollo打造成汽車工業(yè)時代的安卓,但是比安卓更開放、能量更大。

7月5日百度AI開發(fā)者大會上,百度首次對外公布Apollo詳細(xì)的路線圖、技術(shù)框架以及首期開放Apollo 1.0的能力。會上,百度宣布Apollo生態(tài)合作伙伴聯(lián)盟規(guī)模超50家,目前Apollo生態(tài)合作伙伴聯(lián)盟已輻射OEM、Tier1、地圖公司、芯片公司、基金投資、個人開發(fā)者、創(chuàng)業(yè)公司、研究機(jī)構(gòu)及政府機(jī)構(gòu)等,成為全球最強(qiáng)大的自動駕駛生態(tài)。

Apollo將提供一套完整的軟硬件和服務(wù)系統(tǒng),包括車輛平臺、硬件平臺、軟件平臺、云端數(shù)據(jù)服務(wù)等四大部分。此外,百度還將開放環(huán)境感知、路徑規(guī)劃、車輛控制、車載操作系統(tǒng)等功能的代碼或能力,并且提供完整的開發(fā)測試工具。并且,百度還會在車輛和傳感器等領(lǐng)域選擇協(xié)同度和兼容性最好的合作伙伴,推薦給接入Apollo開放平臺的第三方合作伙伴使用,進(jìn)一步降低自動駕駛的研發(fā)門檻。

Apollo核心技術(shù)的總體技術(shù)框架由4個部分組成:

  • Apollo的開放的軟件平臺,核心有四個模塊:

    • (1)自定位模塊,百度具備業(yè)界領(lǐng)先的高精地圖與傳感器的能力融合,能夠為每一個車輛提供低成本、全天候的精準(zhǔn)定位。

    • (2)感知模塊,感知是自動駕駛工業(yè)當(dāng)前的創(chuàng)新重點,百度的感知模塊將多個傳感器組合在一起,通過人工智能技術(shù),使每一輛車都能看清、看懂路況,看到每一個行人、每一個車輛、每一個障礙物。

    • (3)車輛規(guī)劃控制,使用AI+大數(shù)據(jù)以及最安全的駕駛策略,可以精準(zhǔn)控制每一輛車,同時可以適合各個不同的路況。

    • (4)底層的運行框架,核心是安全性、可靠性和實時控制,能支持Intel和NVIDIA不同的芯片。

  • Apollo的服務(wù)平臺:

    • (1)高精地圖服務(wù),是自動駕駛的基礎(chǔ)。

    • (2)仿真引擎,快速累積海量的數(shù)據(jù),能夠使開發(fā)者日行百萬公里。

    • (3)安全服務(wù)。百度將為開發(fā)者提供持續(xù)、高度安全的服務(wù)。

    • (4)DuerOS,為每一輛提供智能化車內(nèi)體驗。參考硬件平臺和參考車輛平臺,能支持各種各樣的不同的計算硬件,從CPU到GPU到FPGA。同時還支持各種不同的傳感器,從GPS到IMU到攝像頭、激光雷達(dá)、雷達(dá)等等。通過將各個模塊的融合,Apollo為每一個開發(fā)者提供了從零到一的能力進(jìn)入自動駕駛研發(fā)。

圖表8:2017年7月發(fā)布的Apollo路線圖

圖表9:Apollo平臺開放情況(紫色為Apollo1.0開放部分,紅色部分為Apollo1.5開放部分)

2017年9月20日,百度宣布Apollo1.5正式開放,包含障礙物感知、決策規(guī)劃、云端仿真、高精地圖服務(wù)、端到端的深度學(xué)習(xí)(End-to-End)等五大核心開放能力,并支持晝夜定車道自動駕駛。其中,原本計劃于年底開放的端到端的深度學(xué)習(xí)(End-to-End)在9月20日宣布提前開放。

能力一:障礙物感知

感知模塊的目標(biāo)是在給定從激光雷達(dá)傳感器獲得的三維點云數(shù)據(jù)后提供感知障礙的能力。它能檢測、分段和跟蹤以高精度地圖ROI方式定義的障礙。此外,它預(yù)測障礙物的運動和姿態(tài)信息(如航向、速度等)。核心的3D感知模塊是基于大規(guī)模點云數(shù)據(jù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的障礙物檢測和分割算法,包括高精地圖ROI過濾、基于CNN的障礙物檢測與分割、MinBox障礙物框構(gòu)建和HM物體跟蹤。

圖表10:3D感知模塊的組成部分

模塊子模塊描述
感知核心模塊高精地圖ROI過濾高精地圖ROI過濾算法根據(jù)地圖定義的ROI,對其外部的點云進(jìn)行過濾。它的主要目標(biāo)在于過濾掉一些無人車不關(guān)注的背景物體(例如道路周圍的建筑物、樹木等),以便讓后續(xù)算法只關(guān)注道路上的障礙物。
基于CNN的障礙物檢測與分割經(jīng)過高精地圖ROI過濾后,不在ROI區(qū)域內(nèi)的背景障礙物(比如建筑物,樹木等)已去除。因此,對ROI內(nèi)部(比如可行駛道路和交叉口)的點云進(jìn)行物體檢測和分割,從而得到前景障礙物例如小轎車、卡車、自行車、行人等。該算法基于全卷積深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)點云特征并預(yù)測障礙物的相關(guān)屬性,并根據(jù)這些屬性建構(gòu)鄰接圖進(jìn)行基于連通片分析的障礙物分割。該算法將先進(jìn)的深度學(xué)習(xí)技術(shù)引入到點云障礙物檢測領(lǐng)域,能夠從大量數(shù)據(jù)中學(xué)習(xí)有效特征進(jìn)行障礙物的檢測與分割,其分割精度遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法。
MinBox障礙物框構(gòu)建MinBox障礙物框構(gòu)建3D框構(gòu)架算法為檢測和分割出的障礙物建立相應(yīng)的邊界框。由于遮擋和離LiDar距離較遠(yuǎn)問題等問題,障礙物的點云可能非常稀疏或者只覆蓋某一部分。inBox障礙物框算法能夠根據(jù)檢測到的障礙物點構(gòu)建出最符合其朝向的邊界框。
HM物體跟蹤HM目標(biāo)物體算法用于跟蹤ROI中檢測和分割得到的障礙物。該算法將當(dāng)前幀檢測到的障礙物與之前跟蹤到的物體進(jìn)行關(guān)聯(lián)、刪除老的跟蹤物體、生成新的跟蹤物體,形成最終的跟蹤表輸出,并預(yù)測障礙物的位置,速度和朝向等信息

止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主機(jī)廠、Tier1供應(yīng)商、開發(fā)者生態(tài)公司。同時百度宣布Apollo基金“雙百計劃”,將在三年內(nèi)投入100億資金,完成超過100家項目的投資,未來將進(jìn)一步壯大Apollo平臺的生態(tài)聯(lián)盟。

能力二:決策規(guī)劃

決策規(guī)劃模塊根據(jù)實時路況、感知模塊輸出的信息、道路限速等信息做出相應(yīng)的軌跡預(yù)測和智能規(guī)劃,同時兼顧安全性和舒適性,提高行駛效率。決策規(guī)劃模塊主要由障礙物檢測、路徑規(guī)劃、選擇與控制三部分組成。

圖表11:決策規(guī)劃模塊的組成部分

模塊子模塊描述
決策規(guī)劃模塊障礙物預(yù)測將位置模塊得到的定位信息(車輛的位置、速度與加速度)與感知核心模塊中得到的障礙物信息(如位置、方向、速度、加速度)結(jié)合,預(yù)測障礙物之后一系列可能的運動方式(如速度和路徑)及各種運動方式對應(yīng)的概率。目前預(yù)測方式有三種:路徑預(yù)測、自由(隨機(jī))移動預(yù)測、障礙物運動區(qū)域預(yù)測。
路徑規(guī)劃基于定位信息、感知核心模塊提供的障礙物信息、對障礙物運動的預(yù)測,同時考慮安全與舒適度,計算出車輛運行的無障礙路徑。
選擇與控制根據(jù)當(dāng)前車輛的狀態(tài)、規(guī)劃功能給出的路徑以及車上人員發(fā)出的指令,運用不同控制算法生成指令(如轉(zhuǎn)向、減速、剎車)并傳遞給汽車。

能力三:高精度地圖

高精度地圖與普通電子地圖的主要區(qū)別是高精度地圖擁有更精確的車輛位置信息和更豐富的道路元素數(shù)據(jù)信息,起到構(gòu)建類似于人腦對于空間的整體記憶與認(rèn)知的功能,可以幫助汽車預(yù)知路面復(fù)雜信息,如坡度、曲率、航向等,更好地規(guī)避潛在的風(fēng)險。是實現(xiàn)自動駕駛的關(guān)鍵所在。此外,高精度地圖還起到了車輛間共享路況信息、識別交通標(biāo)志的作用。

能力四:云端仿真

其中開放云端仿真功能作用極為重要,在正常的產(chǎn)品開發(fā)過程中,良好的仿真測試環(huán)境將方便產(chǎn)品開發(fā)者在模擬環(huán)境中快速測試產(chǎn)品的性能、可靠性等,加快產(chǎn)品的迭代測試周期從而提高產(chǎn)品測試效率:

圖表12:云端仿真功能的作用

開放內(nèi)容功能模塊功能子模塊描述
開放功能內(nèi)置高精地圖的仿真場景基于不同的路型,基于不同的障礙物類型,基于不同的道路規(guī)劃,基于不同的紅綠燈信號。
場景上傳調(diào)試支持同時多場景的高速運行,支持單算法模塊的上傳運行,支持系統(tǒng)整套算法和運行環(huán)境的上傳與運行。
智能場景通過判別系統(tǒng)本期開放5個判別標(biāo)準(zhǔn):碰撞檢測,闖紅燈檢測,限速檢測,在路檢測,到達(dá)目的地檢測
3D展示功能提供實時路況,算法模塊輸出的可視化信息,以及無人車本身狀態(tài)的全局信息。
開放能力核心能力智能陪練該功能可以讓自動駕駛路測更安全。
真實場景重建和多算法認(rèn)證在真實交通流復(fù)現(xiàn)的基礎(chǔ)上,支持感知、規(guī)劃、控制多算法模塊驗證,讓自動駕駛算法驗證更為嚴(yán)謹(jǐn)。
日行百萬提供不間斷的仿真測試,通過多次快速迭代來自動優(yōu)化算法結(jié)果,讓自動駕駛技術(shù)的發(fā)展更高效。
解決方案發(fā)現(xiàn)問題允許開發(fā)者定義和選擇各類評判打分標(biāo)準(zhǔn),在云端仿真器中運行場景并發(fā)現(xiàn)問題。
解決問題查問題場景反映出的現(xiàn)象,進(jìn)而改進(jìn)或替換系統(tǒng)里的相應(yīng)模塊,再次運行場景,直到問題解決。
驗證問題可自動拉取核心場景資源,針對測試中產(chǎn)生的問題,快速驗證新算法,并支持單步調(diào)試與驗證。此外,還提供不間斷的仿真測試,通過多次快速迭代來自動優(yōu)化算法結(jié)果,做到研發(fā)全流程支持。

能力五:端到端

按照2017年7月百度發(fā)布的規(guī)劃,端到端深度學(xué)習(xí)能力比原定的2017年12月提前了3個月,開放速度有所加快。本次開放的障礙物感知和決策規(guī)劃能力使車輛能夠?qū)崿F(xiàn)不分晝夜的精準(zhǔn)障礙物識別,并能通過深度神經(jīng)網(wǎng)絡(luò)精準(zhǔn)預(yù)測行駛路徑,從而做出最終的駕駛決策。

百度IDG部門的郁浩在百度技術(shù)沙龍上的演講中提到,和Apollo中端到端學(xué)習(xí)相對的是傳統(tǒng)無人駕駛項目中主要使用的規(guī)則式系統(tǒng),這是過去二十多年無人駕駛研究的主流方向。規(guī)則式系統(tǒng)從車輛開始是一個閉環(huán):從車輛到車上的傳感器,獲取輸入信息,這些信息經(jīng)過感知層處理,提取出道路、行人和車輛等各種信息。在感知到的信息的基礎(chǔ)之上,再加入高精地圖等一些靜態(tài)信息,把動態(tài)信息和靜態(tài)信息結(jié)合到一起形成較完備的世界模型(World Model)——對外部環(huán)境的完備描述。在此基礎(chǔ)之上就可以進(jìn)入到?jīng)Q策模塊產(chǎn)生決策,然后控制模塊把決策信號傳遞給車輛。

圖表13:規(guī)則式系統(tǒng)

上圖是一個很簡單的閉環(huán)模式,也有很多人提出了相關(guān)的或類似的架構(gòu),比如國際汽車工程師學(xué)會(SAE)在上邊閉環(huán)的基礎(chǔ)上,更細(xì)化分成大環(huán)、小環(huán)和各個模塊之間的關(guān)系。

圖表14:國際汽車工程師學(xué)會(SAE)推薦的系統(tǒng)架構(gòu)圖

為了使規(guī)則式系統(tǒng)能夠滿足自動駕駛的需要,需要不斷細(xì)化、得到更復(fù)雜的功能模塊圖,真正系統(tǒng)落地時往往有上千個模塊。因此規(guī)則式系統(tǒng)有3個特點:

  • 系統(tǒng)十分復(fù)雜,需要人工設(shè)計上千個模塊;

  • 高精地圖成本很高:規(guī)則式系統(tǒng)對外界有很大依賴,高精地圖精度要到厘米級。這也帶來需要及時更新等問題;

  • 對車載硬件計算能力要求很高,規(guī)則式系統(tǒng)中每一個模塊都有相應(yīng)的深度學(xué)習(xí)應(yīng)用,部署在車上的每個模塊都對計算資源需求很高,車上可能需要運行幾個,甚至十幾個深度學(xué)習(xí)網(wǎng)絡(luò)。

簡單地歸納一下,與規(guī)則式系統(tǒng)相比,端到端學(xué)習(xí)更像是在模擬、貼合人的思考過程,包括人的下意識思考。相對規(guī)則式系統(tǒng)而言,端到端學(xué)習(xí)成本更低,但需要大量優(yōu)質(zhì)數(shù)據(jù)來讓機(jī)器進(jìn)行學(xué)習(xí)、篩選各種情況下有效的路徑。

圖表15:Rule based與End-to-End比較

端到端的已有案例

Apollo1.5的合作者M(jìn)omenta基于定車道晝夜自動駕駛能力,很快完成了實車驗證。實際道路測試表明,搭載了Apollo1.5的平臺即使在夜間可視度不佳的情形下,依舊能完成各種復(fù)雜的交通場景識別。

另一個合作伙伴智行者科技在Apollo平臺上打造的無人駕駛掃路車,目前已經(jīng)在北京一家園區(qū)正式落地,開創(chuàng)了Apollo自動駕駛作業(yè)車的先例。2017 CES Asia展會上,百度聯(lián)合長城汽車、NVIDIA,在哈弗H7展示了基于單目攝像頭+百度深度學(xué)習(xí)技術(shù)的端到端自動駕駛解決方案,進(jìn)行了公開試乘。

圖表16:封閉園區(qū)的固定路線的接駁

Apollo平臺目標(biāo)實現(xiàn)生態(tài),開源廣納合作者參與

自Apollo1.0發(fā)布2個多月后,其在知名開源平臺Github上已經(jīng)聚集了6000多的開發(fā)者,位居開源平臺前列。Apollo GitHub將自己定義為一個開放的、完整的、安全的自動駕駛平臺,以靈活和高性能的技術(shù)架構(gòu),為全自動駕駛提供支持。

Apollo開源代碼資源可以分為三部分,分別是apollo、apollo-platform、apollo-kernel。

第一部分,apollo該部分有入門文檔,介紹了Apollo的基本信息。modules文件夾中是各個模塊(如感知模塊perception,預(yù)測模塊prediction,端到端e2e)的開源內(nèi)容。還有一些其他文件夾:docker沙箱,scripts腳本,third_party第三方開源代碼,tools工具。說明文檔推薦使用已經(jīng)設(shè)置好的沙箱模式。

第二部分,apollo-platform該部分內(nèi)容用來提供平臺支持,目前主要是一套經(jīng)過修改的ROS(機(jī)器人操作系統(tǒng))。

第三部分apollo-kernel,該部分內(nèi)容用來提供核心支持,目前Apollo核心使用的是修改過的Linux Kernel 4.4.32。

Apollo生態(tài)鏈及標(biāo)的公司

無人駕駛快速落地,行業(yè)生態(tài)起到了關(guān)鍵性作用,對比手機(jī)的Android系統(tǒng)來看,在Android系統(tǒng)2009年面世之前,各個手機(jī)廠家都有自己的操作系統(tǒng),而在Android系統(tǒng)出來后,短短幾年內(nèi),各大手機(jī)廠商操作系統(tǒng)都統(tǒng)一在開源的Android系統(tǒng)之下(蘋果公司的IOS除外),而沒有跟上這個趨勢的廠商(如諾基亞、摩托羅拉等)很快就銷聲匿跡了。現(xiàn)在Apollo平臺,正如Android系統(tǒng)初生之時,在國內(nèi)有一統(tǒng)平臺的潛質(zhì),Apollo目前已經(jīng)擁有70多家合作伙伴,已有多家合作伙伴采用公司的平臺進(jìn)行產(chǎn)品研發(fā),未來前景良好。因此,如果關(guān)注A股上市公司,建議投資者重點關(guān)注參與到Apollo產(chǎn)業(yè)鏈的公司,尤其是那些細(xì)分行業(yè)的龍頭,具有良好的爆發(fā)性機(jī)會。

圖表17:Apollo合作伙伴分類

分類合作伙伴當(dāng)前及潛在合作機(jī)會
高校(5家)北京航空航天大學(xué)、北京理工大學(xué)、清華大學(xué)、上海交通大學(xué)、同濟(jì)大學(xué)前沿技術(shù)探索及研發(fā)合作等
政府相關(guān)(5家)北京亦莊等場地支持及政策支持等。如在北京亦莊示范區(qū)封閉試驗場預(yù)計將于2017年底建成并對外提供服務(wù),其一期建設(shè)內(nèi)容為占地面積600畝的模擬特大城市交通場景的智能網(wǎng)聯(lián)汽車測試基地,將容納國內(nèi)外各類車型進(jìn)行研發(fā)試驗與測試。
汽車制造商(19家)北京汽車、北汽新能源等在智能汽車的多領(lǐng)域進(jìn)行合作,重點在于Apollo平臺在各個汽車廠的汽車產(chǎn)品上的落地,這需要車廠提供相關(guān)的接口和研發(fā)支持。如何北京汽車的合作內(nèi)容包括在智能汽車、車聯(lián)網(wǎng)、L3級智能駕駛、高精度地圖及車載地圖、聯(lián)合品牌運營等領(lǐng)域展開合作等。

分類合作伙伴當(dāng)前及潛在合作機(jī)會
汽車租賃、打車企業(yè)一嗨租車、首汽租車等智能駕駛汽車的終端用戶
自動駕駛相關(guān)企業(yè)AutonomouStuff利用Apollo開放能力改裝自動駕駛車
地平線機(jī)器人基于車機(jī)或自動駕駛系統(tǒng)合作
路暢科技
MOMENTA
VIRES
智行者科技合作的無人駕駛掃路機(jī)已投放
芯片供應(yīng)商英特爾提供自動駕駛相關(guān)芯片
紫光展銳
英偉達(dá)
軟件及解決方案供應(yīng)商微軟基于自動駕駛相關(guān)系統(tǒng)軟件及解決方案合作
中科創(chuàng)達(dá)
博世
車聯(lián)網(wǎng)企業(yè)博泰合作提供更為安全、便捷、經(jīng)濟(jì)的智能駕駛方案
同行者
遠(yuǎn)特科技
通訊供應(yīng)商中興通訊綜合通信解決方案提供商
IT學(xué)習(xí)、社區(qū)極客幫技術(shù)學(xué)習(xí)、交流服務(wù)
優(yōu)達(dá)學(xué)城
CSDN

Apollo保持著每周數(shù)十次頻率的代碼更新,從2017年7月到9月兩個多月時間新增6.5萬行代碼。同時,Apollo獲得全球開發(fā)者的積極響應(yīng)。截止2017年9月20日,共有1300多個合作伙伴下載使用了Apollo開源代碼,近百個合作伙伴通過Apollo官網(wǎng)申請開放數(shù)據(jù)。上線當(dāng)月,在全球最大的開源社區(qū)Github的全球C++類項目中排名第一,6000多個開發(fā)者推薦使用Apollo開源軟件。

PaddlePaddle:深度學(xué)習(xí)開放平臺

PaddlePaddle前身是百度于2013年自主研發(fā)的深度學(xué)習(xí)平臺,一直為百度內(nèi)部工程師研發(fā)使用。2016年9月,百度宣布其深度學(xué)習(xí)平臺PaddlePaddle在開源社區(qū)Github及百度大腦平臺開放。2017年年初,PaddlePaddle可在Google開源的Docker容器集群管理系統(tǒng)Kubernetes運行,并成為目前唯一官方支持Kubernetes的深度學(xué)習(xí)框架,兩個開源項目的結(jié)合意味著深度學(xué)習(xí)對于廣大開發(fā)者正變得“觸手可及”。

PaddlePaddle具備5大優(yōu)勢:

  • 靈活:PaddlePaddle支持大量的神經(jīng)網(wǎng)絡(luò)架構(gòu)和優(yōu)化算法,支持任意復(fù)雜RNNs結(jié)構(gòu)。

  • 高效:PaddlePaddle會每一級的計算、內(nèi)存、架構(gòu)及通信進(jìn)行優(yōu)化,以充分利用異構(gòu)計算資源。

  • 可擴(kuò)展:PaddlePaddle能通過優(yōu)化通信,獲得高吞吐量和性能。

  • 易用:Paddlepaddle可以使開發(fā)者更加專注于模型的高層結(jié)構(gòu)。

  • 可快速部署:由于PaddlePaddle簡單、可擴(kuò)展的特性,因此可被快速部署到各類應(yīng)用場景中。

圖表18:幾類深度學(xué)習(xí)平臺的比較

  • TensorFlow:大部分功能可以通過從庫里直接調(diào)取代碼實現(xiàn),不需要手動編程。內(nèi)存占用較大,且不支持時間序列的卷積。

  • Theano:相較于深度學(xué)習(xí),其更適合數(shù)值計算優(yōu)化。它允許自動功能梯度計算。但目前不具備多GPU支持和水平功能。

  • Caffe:注重計算機(jī)視覺,靈活性不夠,安裝過程較繁瑣。如果有新的改動,需要使用C++和CUDA進(jìn)行編程;對于較小的改動,可以使用其Python或Matlab來完成。

  • Torch:是一個很好的平臺,但是開發(fā)語言Lua較小眾,學(xué)習(xí)成本大。實現(xiàn)并且優(yōu)化了基本的計算單元,使用者可以在此基礎(chǔ)上編寫自己的算法。

  • MXNet:支持Python、R、C++等多種語言,特別受R語言使用者的歡迎,并且有獨特的多GPU擴(kuò)展功能。

  • PaddlePaddle:使用界面類似于Caffe,并且較好地支持RNN與NLP以及多CPU/GPU并行計算。相較于較TensorFlow,PaddlePaddle能幫助開發(fā)者聚焦于構(gòu)建深度學(xué)習(xí)模型;相較Caffe,PaddlePaddle支持更多應(yīng)用場景。

圖表19:Paddle與TensorFlow在RNN下的表現(xiàn)

目前,PaddlePaddle已經(jīng)被應(yīng)用于百度的30多個主要產(chǎn)品,如外賣菜品識別、預(yù)估出餐時間、海量圖像識別分類、字符識別(OCR)、機(jī)器翻譯和自動駕駛等領(lǐng)域。

百度“能聽會看”作為觸手、帶動技術(shù)領(lǐng)域的商業(yè)化落地

從“能聽”走向“能聽懂”的學(xué)習(xí)之路

1、百度以語音識別為切入點,構(gòu)建人工智能生態(tài)圈。

2017年,百度語音開放生態(tài)2.0。目前,百度語音開放生態(tài)已經(jīng)構(gòu)建起包括模型層、功能層、交互層、接入層的四層開放架構(gòu),已有近25萬開發(fā)者納入生態(tài)圈,日調(diào)用總數(shù)達(dá)20億次。在開放生態(tài)2.0中,百度將開放遠(yuǎn)場識別及喚醒技術(shù)、定制化語音合成、語音合成音色等技術(shù):

  • 遠(yuǎn)場語音識別及喚醒技術(shù):百度通過數(shù)據(jù)增強(qiáng)技術(shù),復(fù)用百度積累的海量搜索語音數(shù)據(jù)和世界領(lǐng)先的語音模型識別,將近場語音技術(shù)完整遷移到遠(yuǎn)場。此外還適配包括Intel、科大訊飛、科勝訊在內(nèi)的主流麥克風(fēng)陳列。同時對家居場景進(jìn)行定向噪聲優(yōu)化;

  • 定制化語音合成技術(shù):包括定制化文本轉(zhuǎn)語音技術(shù)、語音合成標(biāo)注語言標(biāo)簽語言、基礎(chǔ)標(biāo)簽及百度擴(kuò)展內(nèi)容;

  • 開放音色合成:包括自然音色和個性化及明星合成音色;

圖表20:語音技術(shù)開放現(xiàn)狀

目前,百度已與聯(lián)想、中興、長虹、索尼、iReader、攜程、特斯拉等品牌合作,構(gòu)建包含模型層、功能層、交互層、接入層的語音開放架構(gòu)。

語音識別的目標(biāo)是以電腦自動將人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字,其應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。

直到第三次人工智能熱潮來臨,深度學(xué)習(xí)的崛起、高性能計算和大數(shù)據(jù)的迅速發(fā)展才使語音識別從實驗室走出并開始實現(xiàn)商業(yè)落地。近年來語音識別準(zhǔn)確率得到了極大的提升。2016年11月,搜狗、百度、科大訊飛相繼宣布其中文語音識別率達(dá)到了97%。

圖表21:語音識別錯誤率在近幾年得到了極大降低

語音識別作為人工智能核心技術(shù)之一,目前各科技巨頭都將其作為切入點,積極布局人工智能。在智能語音領(lǐng)域方面的布局,科技巨頭和初創(chuàng)公司的打法有所差異,具體表現(xiàn)為:

  • 科技巨頭:圍繞主業(yè),開放應(yīng)用平臺,同時通過收購、戰(zhàn)略合作等手段補(bǔ)齊短板,打造人工智能生態(tài)圈;

  • 智能語音成熟公司:基于原有技術(shù)優(yōu)勢,從單一技術(shù)廠商向人工智能產(chǎn)業(yè)生態(tài)構(gòu)建者進(jìn)軍;

  • 其他創(chuàng)業(yè)公司:深耕細(xì)分領(lǐng)域,重點布局家居、車載、機(jī)器人。

2、自然語言處理技術(shù)賦予機(jī)器認(rèn)知能力

人類語言與計算機(jī)之間相互作用的研究領(lǐng)域稱為自然語言處理(簡稱NLP)。它結(jié)合了計算機(jī)科學(xué)、人工智能和計算語言學(xué)。開發(fā)人員利用NLP可以組織和構(gòu)建知識,執(zhí)行自動總結(jié)、翻譯、命名實體識別、關(guān)系提取、情感分析、語音識別和主題分割等任務(wù)。目前,中國在自然語言處理領(lǐng)域的專利數(shù)量占比僅次于美國。

自百度誕生之日起,中文分詞這種的基礎(chǔ)NLP技術(shù)便已經(jīng)應(yīng)用于搜索引擎。自然語言處理專家王海峰博士加入百度后對百度NLP工作進(jìn)行了重新梳理。在加強(qiáng)分詞、專名識別、query需求分析、query改寫等傳統(tǒng)方向的同時還拓展了機(jī)器翻譯、機(jī)器學(xué)習(xí)、語義搜索、語義理解、智能交互、深度問答、篇章理解等新的技術(shù)方向。在他的帶領(lǐng)下,NLP團(tuán)隊已經(jīng)包括了算法開發(fā)、系統(tǒng)實現(xiàn)、學(xué)術(shù)研究、語言學(xué)、產(chǎn)品設(shè)計和架構(gòu)、前端、客戶端工程開發(fā)等多領(lǐng)域的人才,全面支持百度各種產(chǎn)品應(yīng)用。

圖表22:百度自然語言處理技術(shù)概要

歷經(jīng)17年的積累,2013年百度首次開發(fā)了NLP Cloud平臺,擁有20多種NLP模塊,每天的請求數(shù)超1000億次,每日流量達(dá)數(shù)十億次,已為超2萬個企業(yè)和開發(fā)者提供百度翻譯API,應(yīng)用于百度搜索、Feed、O2O和廣告等業(yè)務(wù)與產(chǎn)品方向。此外,百度還提供語音翻譯及利用字符識別技術(shù)進(jìn)行的圖片內(nèi)容翻譯。

在Baidu Create 2017上,百度開放了基于百度自然語言處理技術(shù)的理解與交互技術(shù)平臺UNIT(Understanding and Interaction Technology Platform),包括詞法分析、情感分析、機(jī)器翻譯、語義表示、語言模型、語義相似度等技術(shù),為機(jī)器賦予“理解”能力。

圖表23:UNIT整體框架

UNIT基于百度海量的搜索數(shù)據(jù)、問答數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)等為對話系統(tǒng)的開發(fā)提供大數(shù)據(jù)保障,為每個不同的對話任務(wù)智能推薦相關(guān)數(shù)據(jù),以供進(jìn)一步的訓(xùn)練數(shù)據(jù)標(biāo)注。并首次推出理解與交互“對話訓(xùn)練師”模式讓普通開發(fā)者乃至零編程基礎(chǔ)的人都能成為訓(xùn)練師。對話系統(tǒng)通過與訓(xùn)練師對話便可不斷完善系統(tǒng)功能、提升對話能力。目前,UNIT已經(jīng)應(yīng)用于車載、客服、家居等場景。

圖表24:訓(xùn)練師模式

全方位視頻理解技術(shù)使機(jī)器不僅“會看”,還會理解

在Baidu Create 2017上,百度發(fā)布了全方位視頻理解技術(shù),包括視頻分割技術(shù)、語義理解、人臉識別及機(jī)器人視覺等。

  • 視頻分割技術(shù)是無人駕駛/機(jī)器人的核心技術(shù),對數(shù)據(jù)和精度要求很高,需要像素級別的輸出信息和更多的視頻訓(xùn)練數(shù)據(jù)。目前百度具有世界第一個室外語義分割RGBD視頻數(shù)據(jù)集。

  • 語義理解技術(shù)包括視頻封面選摘技術(shù)、視頻分類/標(biāo)簽技術(shù)、視頻智能對比技術(shù)、視頻審核色情識別技術(shù)、視頻公眾人物識別技術(shù)、視頻結(jié)構(gòu)化分析技術(shù),并將上線視頻細(xì)粒度識別技術(shù)。

  • 人臉識別:百度已經(jīng)運用200萬人的2億張照片進(jìn)行人臉識別基礎(chǔ)模型訓(xùn)練,實現(xiàn)人臉檢測、人臉對比及人臉查找,并已應(yīng)用于百度魔圖、百度網(wǎng)盤、百度識圖等產(chǎn)品中。此外,百度人臉識別還具備活體識別功能。

  • 機(jī)器人視覺開放平臺由攝像機(jī)IMU模組、SLAM、障礙物檢測、地圖重建、語義識別5大部分構(gòu)成且已開源。其中,SLAM采用雙目視覺慣性算法,定位結(jié)果延遲小誤差低;云端API提供人臉識別、物體檢測和字符識別功能。

計算機(jī)視覺是最主要的人工智能基礎(chǔ)技術(shù)之一,主要包括信息采集、模型訓(xùn)練及識別。目前,計算機(jī)視覺在圖像識別和人臉識別兩大領(lǐng)域的準(zhǔn)確率都已經(jīng)超過人類極限。計算機(jī)視覺技術(shù)主要包括圖像及視頻處理、人臉識別、文字識別、智能監(jiān)控等,其中人臉識別已經(jīng)廣泛應(yīng)用于安防、公安、金融等行業(yè)。在計算機(jī)視覺領(lǐng)域,我國與國外的差距較小。2014年3月,香港中文大學(xué)湯曉鷗教授團(tuán)隊的GaussianFace算法在人臉識別數(shù)據(jù)庫LFW上準(zhǔn)確率達(dá)98.52%,在全球首次突破人眼識別能力。目前,中國在計算機(jī)視覺方面的專利已躍居世界第一,占當(dāng)前全球?qū)@_數(shù)量的55%,并且增長勢頭強(qiáng)勁。

圖表25:計算機(jī)視覺專利數(shù)量分布(單位:%)

今年1月,百度研究院成立AR實驗室,同時推出AR開放平臺DuMix供開發(fā)者及內(nèi)容創(chuàng)作者使用。在Baidu Create 2017上,百度發(fā)布全新DuMix AR開放平臺,提供基礎(chǔ)的AR技術(shù),包括AR SDK、內(nèi)容制作工具、云端內(nèi)容平臺和內(nèi)容分發(fā)服務(wù)4大部分:

  • Dumix AR SDK:支持本地識別跟蹤、語音交互、SLAM等20多項功能,幫助移動APP集成AR。

  • 內(nèi)容制作工具:開發(fā)者可以使用素材模版庫和制作工具開發(fā)AR內(nèi)容,也可以使用百度認(rèn)證的內(nèi)容供應(yīng)商體系,快速為開發(fā)者提供全面專業(yè)的內(nèi)容制作服務(wù)。

  • 云端內(nèi)容管理平臺:通過云平臺方式,提供內(nèi)容管理、更新,渠道管理,數(shù)據(jù)統(tǒng)計等多種內(nèi)容管理服務(wù);

  • 內(nèi)容分發(fā)服務(wù):百度還會在手機(jī)百度APP、搜索/Feed等百度系入口上提供優(yōu)質(zhì)AR體驗的分發(fā)服務(wù),通過Dumix AR制作和接入的AR,將可以觸達(dá)百度的億級用戶。

圖表26:DuMix AR的能力特點和技術(shù)優(yōu)勢

未來,DuMix AR開放平臺將通過打通手機(jī)百度上內(nèi)容分發(fā)渠道,提供更多場景的AR行業(yè)解決方案,賦能各行各業(yè),共同探索AR價值。

總結(jié):人工智能仍在探索階段,各家技術(shù)方向并不完全趨同,又涉及整個產(chǎn)業(yè)鏈的融合能力,因此,最終落地形態(tài)和成熟的商業(yè)場景存在較大的不確定性。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
視頻 | 體驗百度Apollo2.0,5個月見證中國AI速度
CES直擊 | 百度和它的智能時代
百度大腦都7.0了,你還看不懂?
AI 就服百度!一口氣煥新 10 大行業(yè),生活徹底改變了?
今天,哆啦A度從口袋里拿出了未來道具
四大平臺完整開放,城市自動駕駛能力更新,百度阿波羅2.0帶來了什么? | CES 2018
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 罗田县| 治多县| 昌邑市| 铅山县| 塔城市| 梧州市| 论坛| 神木县| 监利县| 天津市| 兴国县| 寻乌县| 信丰县| 柘城县| 甘孜县| 寻甸| 江都市| 荥阳市| 饶平县| 皋兰县| 河津市| 若尔盖县| 普洱| 庆阳市| 齐齐哈尔市| 新昌县| 永泰县| 孟州市| 五华县| 新田县| 平南县| 湖口县| 万载县| 靖江市| 静海县| 铁岭市| 吴桥县| 花莲市| 称多县| 吉首市| 兴隆县|