研究人員已經(jīng)開發(fā)了一種深度學習算法,能夠成功地預(yù)測基于片段中(靜態(tài)剪輯的視頻剪輯)會發(fā)生什么。
馬薩諸塞理工學院的計算機科學與人工智能實驗室(MIT),通過使用600百小時的YouTube視頻訓練算法,在預(yù)測視野方面取得了突破。通過搜索模式和可識別的對象(如手和臉),該算法能夠預(yù)測人類的交互,如擁抱,親吻,握手或高水平。
本周將在國際計算機視覺與模式識別會議(CVPR)上展出。
麻省理工學院博士研究生和論文最初的創(chuàng)始人卡爾·范德里克(Carl Vondrick)說:“人們自然會想出如何通過經(jīng)驗來預(yù)見活動,這是讓我們感興趣的事情,嘗試用類似的判斷技巧來應(yīng)用于個人計算。我們需要證明,只要觀察大量視頻,個人電腦就可以增加足夠的學習經(jīng)驗,以便可靠地對其環(huán)境進行預(yù)測。”他補充說。
接下來是什么 ?
測試結(jié)果是正確率為43%,通過相同的方法,人類受試者可以精確地預(yù)測71%的時間活動。
Vondrick和他的分析師相信,計算將能夠幫助人們增強機器人與人的聯(lián)系。
Vondrick說:“理解和管理人際關(guān)系有很大的差異。我們有能力解決這個問題,以便能夠早日用機器預(yù)測到更為令人困惑的任務(wù)。”
“我很想知道計算得到更好的算法會發(fā)生什么,可能會看到一些巨大的變化,使我們在真實的情況下更接近于利用預(yù)見性的視野。”