8月31日,2019世界人工智能大會·開發者日,極鏈科技主題論壇在上海世博中心成功舉辦,現場匯聚了300多位行業人士到場,其中包括全球頂尖AI專家、技術大牛、知名企業代表以及開發者,大會以“重構視界·見未來”為主題,圍繞計算機視覺技術和“AI+視頻”的開發實踐進行分享和解讀。
大會現場,北京大學博雅特聘教授&國家杰青田永鴻帶來了主題演講,對視頻大數據挑戰問題進行了深度剖析,并介紹了前沿的研究進展。
視頻大數據三大挑戰問題
當前,已迎來視頻大數據爆炸時代,IDC分析報告顯示,互聯網總數據到2025年將達到175ZB,其中視覺數據為80ZB。大數據技術與AI是孿生兄弟,大數據賦能AI,讓AI能力更進一步,但也提出了一些新挑戰。
視頻數據分析識別長期以來的模式,是通過壓縮形成碼流,解碼后進行特征提取,再進行分析識別。而最近幾年深度學習應用后,大量深度神經網絡通過訓練把特征提取和分析識別以端到端方式提取出來。典型的圖像/視頻分析處理系統就是云模式,視頻存儲、分析與識別均在云上完成,分析識別的視頻路數與云服務器的算力成正比。這樣的模式下,有很多潛在問題。
問題一,“數據大不等于大數據”的挑戰。數據量大一定是分散存儲,而大數據分析需要視頻數據匯聚在一起,涉及到帶寬支持、視頻壓縮編碼等技術,目前條件很難將視頻大量匯聚。
問題二,“高通量&低延時”的挑戰。視頻本身是實時媒體,具有高通量的特征。其中,網絡直播視頻和廣電節目對實時性要求很高。對視頻傳輸技術是一個很大挑戰。
問題三,“低價值密度”的挑戰。大量正常視頻是低價值密度,而少量敏感視頻是高價值密度。分布非均衡分布對傳統機器學習算法提出了很大挑戰。
面對挑戰,在國家和省部項目支持下,田永鴻教授及其團隊推出了視頻大數據處理分析平臺及示范應用,支持高效編碼、特征表達、對象識別和行為分析,應用在電視節目、網絡視頻、城市監管等應用中。
仿眼類腦是視覺處理系統演進的必由之路
眾所周知,數碼相機的生物學原型是人類的視網膜。就像數碼相機中能采集“像素”一樣,視網膜能獲取并編碼大量的視覺數據。視網膜中間有兩個部分,一是中央凹,即瞳孔,是為了看清楚東西,另一個是外周,與中央凹的視覺神經網絡不一樣,外周神經網絡可以提取并編碼場景或物體的特征,如紋理、輪廓等。從這個角度來看,傳統的數碼相機僅僅只模擬視網膜的一部分功能。
因此,一個自然的問題就是,如何借鑒“人類視網膜同時具有影像編碼與特征編碼功能”這一生物特性來研究和設計一種更高效的攝像頭。我們稱之為數字視網膜攝像頭(retina-likecamera),簡稱為數字視網膜。數字視網膜架構本質特征為:一,有全網統一時間和精確地理位置;二,能夠進行視頻編碼和特征編碼;三,自適應可擴展架構,包括模型可更新、注意可調節和軟件可定義。
視網膜表示的核心技術是視頻特征的緊湊表達,需要對識別分析準且快,且特征需要小才可以大量匯聚。對此,田永鴻教授團隊建立了深度特征的幀內幀間壓縮框架,利用Hash網絡將浮點型深度特征進行量化,并根據不同的內容設計了不同的幀間編碼結構與模式。另外,僅預定義的屬性不能有效區分表觀相似對象,但可以利用大規模匯聚特征表示挖掘隱含視覺屬性。
基于此,田永鴻教授團隊與企業合作開發了城市視頻大數據分析平臺,包括特征與結構分析,計算平臺匯聚網關,業務應用系統等等。應用在城市范圍內特定對象精準追蹤、智能交通實現數字視網膜AI賦能、視頻節目流異常檢測與識別問題中。
雖然傳統認知將眼睛視為視覺圖像的簡單預濾器,但現在看來,數據打通當中,內腦仿眼是視覺處理系統演進的必由之路。可以使用能夠生成強大解決方案的機器,以此發現更多未知算法,這些算法或許會超越視覺領域,不僅僅是視覺,還有包括聽覺、嗅覺、觸覺等,實現未來的VideoAI。