智東西3月20日消息,百度大腦的開放日活動在今日下午于中關村創業大街百度大腦創新體驗中心召開。
這是百度大腦的首場開放日活動,也是百度大腦開放技術能力以及最新行業應用的一次集中展示。
活動當天,百度AI技術生態部總經理喻友平,重點介紹了百度大腦開源深度學習平臺PaddlePaddle的技術和產品更新,以及百度大腦在市政、物流、教育等行業的落地案例,與開發者們進行深度交流。
同時,喻友平還介紹了百度大腦全新開放的24種AI能力。此前在網絡上大火的智能貓窩設計者百度大腦工程師晚兮也在現場為大家講述了智能貓窩設計者們的初心。
開放日一開始,喻友平就重點宣布百度PaddlePaddle的核心框架Paddle Fluid 在近日迎來v1.3版本發布,在基礎框架、預測引擎、模型建設、分布式訓練各個方向上完成多項升級。
首先,Paddle Fluid v1.3新增發布視頻分類模型庫,值得關注的是這是業界首個視頻分類模型庫。
據喻友平表示,這個新增視頻模型庫,可以提供5個視頻分類經典模型以及適合視頻分類任務的通用骨架代碼,用戶可一鍵式高效配置模型完成訓練和評測。
其次,PaddlePaddle新增支持NLP語義表示BERT模型,支持多機多卡訓練,支持混合精度訓練,訓練速度對比主流實現提升50%+,并且提供完整部署示例。
另外,在最新更新中PaddlePaddle的分布式訓練性能大幅提升。百度大腦發布了大規模稀疏參數服務器Benchmark,通過 CPU多機異步訓練發布可以顯著提升點擊率預估任務IO吞吐的built-in reader,多機多卡訓練性能多方面提升。
最后,喻友平還推出業界領先的深度強化學習框架PARL1.0。據他介紹,PARL曾在NeurIPS 2018 奪冠。具有高靈活性和可擴展性,支持可定制的并行擴展,覆蓋DQN、DDPG、PPO、A3C等主流強化學習算法。通過8塊GPU可拉動近20000個CPU節點運算,將近5個小時迭代一輪的PPO算法加速到不到1分鐘。
據百度表示,當前百度PaddlePaddle已對外開放超過50種經過工業場景驗證的官方模型,在深度學習基礎之上,百度大腦通用AI能力開放涵蓋語音、視覺、自然語言處理、知識圖譜等全面AI技術。
語音方面,根據喻友平介紹,目前百度大腦語音開放能力包括語音喚醒、語音識別、語音合成等通用能力,還包括即將推出的語音識別自訓練平臺、軟硬一體的語音開發套件以及各種場景方案。
此外,PaddlePaddle首次開放了搭載國際領先的注意力模型的語音能力——語音識別極速版。
在1月的百度輸入法探索版發布會上,首次發布了領先國際的語音技術:在線語音領域全球首創的流式多級截斷注意力模型SMLT「Streaming trancated multi-layer attention」。
這是首次在大規模語音識別工業界采用注意力(attention)模型,在百度輸入法產品發布后,驚艷的語音輸入體驗得到了業界的一致好評。基于以上成果持續進行更多創新,提升識別率的同時又大幅優化解碼速度。百度大腦語音方向首次將這一系列技術創新整合為語音能力對外開放:“語音識別極速版”,擁有更快的響應速度,相對識別準確度提升15%,為開發者帶來更極致的識別體驗。
此項語音能力在API調用方式下,實時率小于0.1,意味著5s的音頻不到500ms即可完成識別過程,極大減少了識別音頻所需的耗時,提升了語音交互的響應體驗。在近距離安靜環境下,識別準確率可達到98%,同時支持略帶口音、童聲、耳語的識別,使語音識別應用更加廣泛。
同時,多平臺的SDK也即將推出,使APP、服務器端更可實時識別,應用這一領先技術。目前,每個開發者賬戶將贈送5W次免費調用量,針對新能力的使用者,也即將推出一系列贈送及優惠活動。
另外,近場語音識別升級了預置語義解析。預置場景由35個升級為51個,包括天氣、航班、電話、電影播放、頁面屏幕控制、電視劇、美食、手機設置、通用錄、提醒、短信、故事等,語義解析效果全面優化,80%優于原有解析結果。
不僅如此,還有一些新品即將上線。如:語音識別自訓練平臺,支持自動評估選出最好的基線模型,僅上傳業務場景文本語料即可訓練語言模型,零代碼自助訓練專屬的語音識別模型,極大地方便語音開發者提升所在業務場景的識別準確率,滿足業務上的語音識別需求。另外,遠場語音開發套件也即將上架售賣,可快速進行遠場識別開發評估,此套件應用于機器人、兒童故事機、家電、車載設備等硬件。同時還將開放離線合成,以及推出更多音庫。
視覺方面,百度大腦重點更新了OCR、車輛分析、人臉人體以及圖像識別四方面的能力升級。
首先,在極大便捷工作的OCR方面,卡證、票據、汽車三大場景方面均有重大更新
卡證OCR 新增了4個新能力:戶口本OCR、出生醫學證明OCR、港澳通行證OCR、臺灣通行證OCR,總數達到9種;
票據OCR 新增了4個新能力:行程單OCR、保單識別OCR、通用機打發票OCR,定額發票OCR,總數達到9種;
汽車場景的OCR則更新了3個新能力:車輛VIN OCR、機動車銷售發票OCR、車輛合格證OCR,總數達到6種。這些OCR新能力在關鍵字段的準確率均在90%以上,并有多項是業界首次平臺化開放。
同時,對已有的OCR能力,百度大腦也進行了功能升級:表格識別:支持合并單元格、無表格線等復雜樣式;iOCR 自定義模版文字識別:支持列寬不固定、有合并單元格的表格樣式的定制識別;駕駛證識別:支持駕駛證副頁的識別。
至此,OCR產品全系列共34款,實現卡證、票據、文檔、汽車全場景覆蓋。
在車輛分析方面,百度大腦推出全新系列服務:包括車輛檢測、車流統計、車輛屬性分析和外觀損傷識別。
其中,車輛檢測,通過識別圖像中的所有機動車輛(包含小汽車、卡車、巴士、摩托車、三輪車),返回每輛車的類型和坐標位置,并對每類車輛分別計數,可應用于違章停車監測和智能停車場。
車流統計,則是根據視頻抓拍圖片序列,進行車輛檢測和追蹤,識別各類車輛(包括小汽車、卡車、巴士、摩托車、三輪車)在指定區域內的駛入/駛出情況,實現動態車流統計,可應用于實時監控交通道路、卡口的車流量,自動統計不同時段各類車輛的進出數量,分析路口、路段的交通狀況,為交通調度、路況優化提供精準參考依據。而車輛屬性分析和外觀損傷識別兩項服務,也即將開放。
在人臉人體識別方面,百度大腦新發布了情緒識別,可以準確識別7類情緒:生氣、害怕、厭惡、高興、悲傷、驚訝、無情緒。
此項技術可應用于幼兒園安全監控等場景,通過監控孩子的心理狀態,判斷教師和幼兒是否有異常狀況,從而保障幼兒安全、及時預警并參與輔導等。同時人臉融合以及手部關鍵點將在3月推出。
此外人臉人體方面,百度大腦還有2項功能全新升級,包括:人臉檢測快速檢測人臉并返回人臉框位置、定位五官與輪廓關鍵點數量,從72個增加至150個;新增2種手勢,共24種常見手勢,整體識別率在90%以上,使得手勢識別更豐富、更準確;而即將上線的更高進精度的人像分割,可應用于人像美圖、影視后期等場景。
而在圖像識別方面,百度大腦新增紅酒識別和地標識別這2個新能力。通過紅酒識別,用戶只需要對著紅酒標簽拍照,系統就能自動識別紅酒的品牌和名稱,目前可識別數十萬種國內外紅酒,識別準確率98%以上,從法國波爾多到中國張裕,商品信息都能得到準確關聯,可以輕松為用戶提供參考和商品推薦。而地標識別則能夠精準識別約5萬中外著名地標、景點,準確率高達94%以上。用戶只需要拍攝包含國內外著名景點、地標的照片,系統就能自動生成足跡、圖文博客等有意思的交互內容,提升用戶旅游體驗。
同時,開放日現場,喻友平還宣布,百度大腦即將上線邀測錢幣識別功能。該功能可以精準識別中外錢幣,支持數百類幣種、數千種面額,識別準確率98%以上,不僅能夠提升金融機構貨幣兌換的效率,也能讓“外幣騙局”無處藏身。
從紅酒到地標再到錢幣,目前百度大腦的圖像識別種類已經多達11種。
同時,百度大腦語言及知識技術也進一步開放。這一方面,百度大腦此次開放日的更新亮點是:語言處理應用技術、知識理解以及智能寫作平臺三大方面。
在語言處理應用技術方面,百度大腦新增文本糾錯、新聞摘要、智能寫詩、智能春聯和對話情緒識別等能力,在知識理解方面,百度大腦推出了作文檢索和知識問答兩個新能力。
同時,智能寫作平臺將在4月全面上線,平臺同時提供自動寫作和輔助寫作的能力。一方面,平臺支持天氣預報、股市大盤、比賽報道、智能寫詩寫春聯等自動寫作的能力,能夠直接進行自動寫稿,從而解放創作者的雙手。另一方面,平臺提供熱點發現、熱點分析、自動摘要、自動糾錯等輔助寫作的能力,能夠幫助創作者提供素材、激發靈感、質量檢測,提升創作者的寫作效率和產出質量,降低寫作成本。
在AI技術加持下,百度大腦也在重點發力智能硬件和設備。
在百度大腦首場開放日,除了有以上多項核心的技術更新、能力升級、新品推出外,百度大腦在AI市場正式上架4款硬件產品。
截至目前,百度大腦已經開放了近160項AI能力,平臺上開發者數量超過100萬,開放能力覆蓋語音、視覺、自然語言處理、機器學習等全面AI技術。
開放日當天,網紅智能貓窩的設計者百度大腦工程師晚兮也在現場為大家講述了智能貓窩設計者們的初心。
為了讓流浪喵過上幸福的生活,程序員出身的他用百度大腦動物識別技術和百度EasyDL打造出 “貓臉門禁”、“病貓識別”、“絕育識別”三大智能功能,給流浪貓一個溫暖的住所的同時幫助救助志愿者發現生病和未絕育的流浪貓。
晚兮提到,憑借百度大腦的開放技術,他只用半天就設計出了智能貓窩的三項主要AI功能,讓看似高冷的AI技術最終化為貓咪們的守護神。
事實上,AI技術已經滲透到各行各業的毛細血管之中,在賦能落地的過程中,AI的發展不僅要有代碼與邏輯組成的技術構成,同時更是需要扎實可用的技術應用以及惠及更多行業的開放生態。
其中,僅僅是百度大腦就已經落地20+行業,對外開放超過50種經過工業場景驗證的官方模型。無可置疑的是,AI生態賦能已成燎原之勢。