精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
IEEE Fellow 李學(xué)龍:多模態(tài)認(rèn)知計(jì)算是實(shí)現(xiàn)通用人工智能的關(guān)鍵
userphoto

2022.09.29 遼寧

關(guān)注


信容=信息量/數(shù)據(jù)量
作者 | 李梅

編輯 | 陳彩嫻

在如今數(shù)據(jù)驅(qū)動(dòng)的人工智能研究中,單一模態(tài)數(shù)據(jù)所提供的信息已經(jīng)不能滿足提升機(jī)器認(rèn)知能力的需求。與人類利用視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等多種感官信息來(lái)感知世界類似,機(jī)器也需要模擬人類聯(lián)覺(jué)來(lái)提升認(rèn)知水平。

同時(shí),隨著多模態(tài)時(shí)空數(shù)據(jù)的爆發(fā)和計(jì)算能力的提升,研究者已經(jīng)提出了大量方法以應(yīng)對(duì)日益增長(zhǎng)的多樣化需求。但當(dāng)前的多模態(tài)認(rèn)知計(jì)算仍局限于人類表觀能力的模仿,缺乏認(rèn)知層面的理論依據(jù)。面對(duì)更加復(fù)雜的智能任務(wù),認(rèn)知科學(xué)與計(jì)算科學(xué)的交叉已成必然。

近日,西北工業(yè)大學(xué)的李學(xué)龍教授在《中國(guó)科學(xué):信息科學(xué)》期刊上發(fā)表了《多模態(tài)認(rèn)知計(jì)算》一文,以“信容”(Information Capacity)為依據(jù),建立了認(rèn)知過(guò)程的信息傳遞模型,提出了“多模態(tài)認(rèn)知計(jì)算能夠提高機(jī)器的信息提取能力”這一觀點(diǎn),從理論上對(duì)多模態(tài)認(rèn)知計(jì)算各項(xiàng)任務(wù)進(jìn)行了統(tǒng)一。

李學(xué)龍認(rèn)為,多模態(tài)認(rèn)知計(jì)算是實(shí)現(xiàn)通用人工智能的關(guān)鍵之一,在”臨地安防”(Vicinagearth Security)等領(lǐng)域有廣闊的應(yīng)用前景。本文探索了人類和機(jī)器的統(tǒng)一認(rèn)知模式,對(duì)推動(dòng)多模態(tài)認(rèn)知計(jì)算的研究帶來(lái)啟發(fā)。

引用格式:Xuelong Li, “Multi-Modal Cognitive Computing,” SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022-0226

李學(xué)龍是西北工業(yè)大學(xué)教授,關(guān)注高維數(shù)據(jù)的智能獲取、處理和管理之間的關(guān)系,在“臨地安防”(Vicinagearth Security)等應(yīng)用系統(tǒng)中發(fā)揮作用。2011年入選IEEE Fellow,并是首位當(dāng)選國(guó)際人工智能協(xié)會(huì)(AAAI)執(zhí)委的大陸學(xué)者。

AI 科技評(píng)論對(duì)《多模態(tài)認(rèn)知計(jì)算》一文的要點(diǎn)作了概括,并沿該方向與李學(xué)龍教授進(jìn)行了一次深入對(duì)話。

1

機(jī)器認(rèn)知能力在于信息利用率

基于信息論,李學(xué)龍?zhí)岢觯憾嗄B(tài)認(rèn)知計(jì)算能夠提高機(jī)器的信息提取能力,并從理論上對(duì)這一觀點(diǎn)進(jìn)行了建模(如下)。

首先,我們需要明白人類是怎樣提取事件信息的。

1948 年,信息論創(chuàng)始人 Shannon 提出“信息熵”的概念來(lái)表示隨機(jī)變量的不確定程度,事件的概率越小,其發(fā)生所提供的的信息量越大。也就是說(shuō),在一個(gè)給定的認(rèn)知任務(wù) T 中,事件 x 的發(fā)生所帶來(lái)的信息量與事件的概率 p(x) 成反比:

而信息是以各種模態(tài)為載體進(jìn)行傳輸?shù)模僭O(shè)事件空間 X 為感知模態(tài)(m)、空間(s)、時(shí)間(t)上的張量,那么個(gè)體從事件空間中獲得的信息量可定義為:

人類在某一時(shí)空范圍內(nèi)的是注意力有限的(假設(shè)為 1),所以當(dāng)時(shí)空事件從單模態(tài)轉(zhuǎn)變?yōu)槎嗄B(tài)時(shí),人類就不需要不斷調(diào)整注意力,將關(guān)注點(diǎn)放在未知事件信息上,以獲取最大量的信息:

由此可知,當(dāng)時(shí)空事件包含的模態(tài)越多,個(gè)體獲取的信息量也就越大,認(rèn)知水平也隨之更高。

那么對(duì)于機(jī)器而言,是否獲取到的信息量越大,機(jī)器就越接近人類的認(rèn)知水平?

答案是并非如此。為了度量機(jī)器的認(rèn)知能力,李學(xué)龍?jiān)凇靶湃荨崩碚摰幕A(chǔ)上,將機(jī)器從事件空間中提取信息的過(guò)程表示如下。其中,D 為事件空間 x 的數(shù)據(jù)量。

由此,機(jī)器的認(rèn)知能力即可定義為從單位數(shù)據(jù)獲取最大信息量的能力,這樣一來(lái),人類與機(jī)器的認(rèn)知學(xué)習(xí)便統(tǒng)一為提高信息利用率的過(guò)程。

那么,如何提升機(jī)器對(duì)多模態(tài)數(shù)據(jù)的利用率進(jìn)而提升多模態(tài)認(rèn)知計(jì)算能力呢?

正如人類的認(rèn)知提升離不開(kāi)對(duì)現(xiàn)實(shí)世界的聯(lián)想、推理、歸納與演繹,要想提升機(jī)器認(rèn)知能力,也需從對(duì)應(yīng)的三方面切入:關(guān)聯(lián)、生成、協(xié)同,這也是如今多模態(tài)分析的三個(gè)基本任務(wù)。

2

多模態(tài)認(rèn)知計(jì)算的三條主線

多模態(tài)關(guān)聯(lián)、跨模態(tài)生成和多模態(tài)協(xié)同三個(gè)任務(wù)處理多模態(tài)數(shù)據(jù)的側(cè)重點(diǎn)不同,但其核心都是要利用盡可能少的數(shù)據(jù)實(shí)現(xiàn)信息量的最大化。

多模態(tài)關(guān)聯(lián)

源自不同模態(tài)的內(nèi)容如何在空間、時(shí)間和語(yǔ)義層級(jí)上關(guān)聯(lián)對(duì)應(yīng)起來(lái)?這是多模態(tài)關(guān)聯(lián)任務(wù)的目標(biāo),也是提高信息利用率的前提。

多模態(tài)信息在空間、時(shí)間和語(yǔ)義層面上的對(duì)齊是跨模態(tài)感知的基礎(chǔ),多模態(tài)檢索則是感知在實(shí)際生活中的應(yīng)用,比如依靠多媒體搜索技術(shù),我們可以輸入詞匯短語(yǔ)來(lái)檢索視頻片段。

圖注:多模態(tài)對(duì)齊示意圖

受人類跨感官感知機(jī)制的啟發(fā),AI 研究者已經(jīng)將可計(jì)算模型用于唇讀、缺失模態(tài)生成等跨模態(tài)感知任務(wù)當(dāng)中,

還進(jìn)一步輔助殘障群體的跨模態(tài)感知。而在將來(lái),跨模態(tài)感知的主要應(yīng)用場(chǎng)景將不再局限于殘障人士的感知替代應(yīng)用上,而是將更多的同人類的跨感官感知相結(jié)合,提升人類多感官感知水平。

如今,數(shù)字模態(tài)內(nèi)容快速增長(zhǎng),跨模態(tài)檢索的應(yīng)用需求也愈加豐富,這無(wú)疑為多模態(tài)關(guān)聯(lián)學(xué)習(xí)提出了新的機(jī)遇和挑戰(zhàn)。

跨模態(tài)生成

我們?cè)陂喿x一段小說(shuō)情節(jié)時(shí),腦海中會(huì)自然浮現(xiàn)相應(yīng)的畫(huà)面,這是人類跨模態(tài)推理和生成能力的體現(xiàn)。

與之類似,在多模態(tài)認(rèn)知計(jì)算中,跨模態(tài)生成任務(wù)的目標(biāo)是賦予機(jī)器生成未知模態(tài)實(shí)體的能力。從信息論的角度看,這一任務(wù)的本質(zhì)就成了在多模態(tài)信息通道內(nèi)提高機(jī)器認(rèn)知能力的問(wèn)題,這有兩種途徑:一是提高信息量即跨模態(tài)合成,二是減小數(shù)據(jù)量即跨模態(tài)轉(zhuǎn)換。

跨模態(tài)合成任務(wù)是在生成新模態(tài)實(shí)體時(shí)對(duì)已有信息進(jìn)行豐富,從而增大信息量。以基于文本生成圖像為例,早期主要采用實(shí)體關(guān)聯(lián)的方式,對(duì)檢索庫(kù)的依賴程度往往很高。如今,圖像生成技術(shù)以生成對(duì)抗網(wǎng)絡(luò)為主,已經(jīng)能夠生成逼真的高質(zhì)量圖像。但人臉圖像生成仍然十分具有挑戰(zhàn)性,因?yàn)閺男畔哟紊峡矗词故俏⑿〉谋砬樽兓灿锌赡軅鬟_(dá)出非常大的信息量。

同時(shí),將復(fù)雜模態(tài)轉(zhuǎn)換到簡(jiǎn)單模態(tài),尋找更加簡(jiǎn)潔的表達(dá)形式,則可以降低數(shù)據(jù)量,提升信息獲取能力。

圖注:常見(jiàn)的跨模態(tài)轉(zhuǎn)換任務(wù)

作為計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩大技術(shù)結(jié)合的典范,跨模態(tài)轉(zhuǎn)換可以極大地提升在線檢索效率。比如對(duì)一段冗長(zhǎng)的視頻給出簡(jiǎn)要的自然語(yǔ)言描述,或者給一段視頻信息生成與之相關(guān)的音頻信號(hào)燈。

目前主流的兩種生成式模型 VAE(變分自編碼器)和 GAN (生成對(duì)抗網(wǎng)絡(luò))各有長(zhǎng)短,李學(xué)龍認(rèn)為,VAE 依賴假設(shè)條件,而 GAN 可解釋性差,二者需合理結(jié)合。尤其重要的一點(diǎn)是,多模態(tài)生成任務(wù)的挑戰(zhàn)不僅在于生成質(zhì)量方面,更多在于不同模態(tài)之間的語(yǔ)義及表示鴻溝問(wèn)題,如何在具有語(yǔ)義鴻溝的前提下進(jìn)行知識(shí)推理是未來(lái)需要解決的難點(diǎn)。

多模態(tài)協(xié)同

在人類認(rèn)知機(jī)制中,歸納和演繹扮演著重要角色,我們可以對(duì)看到的、聽(tīng)到的、聞到的、摸到的等多模態(tài)感知進(jìn)行歸納融合、聯(lián)合演繹,以此來(lái)作為決策依據(jù)。

同樣地,多模態(tài)認(rèn)知計(jì)算也要求協(xié)調(diào)兩個(gè)或兩個(gè)以上的模態(tài)數(shù)據(jù),互相配合完成更加復(fù)雜的多模態(tài)任務(wù),并提升精度和泛化能力。從信息論的角度看,它的本質(zhì)是多模態(tài)信息之間的相互融合以達(dá)到信息互補(bǔ)的目的,是對(duì)注意力的優(yōu)化。

首先,模態(tài)融合是為了解決數(shù)據(jù)格式、時(shí)空對(duì)齊、噪聲干擾等帶來(lái)的多模態(tài)數(shù)據(jù)的差異問(wèn)題。目前,機(jī)遇規(guī)則的融合方式包括串行融合、并行融合和加權(quán)融合,基于學(xué)習(xí)的融合方式則包括注意力機(jī)制模型、遷移學(xué)習(xí)和知識(shí)蒸餾。

其次,多模態(tài)信息融合完成后就需要對(duì)模態(tài)信息進(jìn)行聯(lián)合學(xué)習(xí),以幫助模型挖掘模態(tài)數(shù)據(jù)間的關(guān)系,建立起模態(tài)與模態(tài)間的輔助或互補(bǔ)聯(lián)系。

通過(guò)聯(lián)合學(xué)習(xí),一方面能夠提升模態(tài)性能,如視覺(jué)指導(dǎo)音頻、音頻指導(dǎo)視覺(jué)、深度指導(dǎo)視覺(jué)等應(yīng)用;另一方面可以解決以往單模態(tài)難以實(shí)現(xiàn)的任務(wù),如復(fù)雜情感計(jì)算、音頻匹配人臉建模、視聽(tīng)覺(jué)指導(dǎo)音樂(lè)生成等都是未來(lái)多模態(tài)認(rèn)知計(jì)算的發(fā)展方向。

3

機(jī)遇與挑戰(zhàn)

近年來(lái),深度學(xué)習(xí)技術(shù)已經(jīng)極大地推動(dòng)了多模態(tài)認(rèn)知計(jì)算在理論和工程上的發(fā)展。但如今應(yīng)用需求愈加多元化,數(shù)據(jù)迭代速度也在加快,這為多模態(tài)認(rèn)知計(jì)算提出了新的挑戰(zhàn),也帶來(lái)了許多機(jī)遇。

我們可以從提升機(jī)器認(rèn)知能力的四個(gè)層面來(lái)看:

在數(shù)據(jù)層面,傳統(tǒng)的多模態(tài)研究將數(shù)據(jù)的采集和計(jì)算分離為兩個(gè)獨(dú)立過(guò)程,這種方式存在弊端。人類世界由連續(xù)模擬信號(hào)構(gòu)成,而機(jī)器處理的是離散數(shù)字信號(hào),其轉(zhuǎn)換過(guò)程必然造成信息變形和丟失。

對(duì)此,李學(xué)龍認(rèn)為,以光神經(jīng)網(wǎng)絡(luò)為代表的智能光電能夠帶來(lái)解決思路,如果能完成多模態(tài)數(shù)據(jù)的感算一體,機(jī)器的信息處理效率和智能水平將大大提高。

在信息層面,認(rèn)知計(jì)算的關(guān)鍵是對(duì)信息中高級(jí)語(yǔ)義的處理,比如視覺(jué)中的位置關(guān)系、圖像的風(fēng)格、音樂(lè)的情感等。目前多模態(tài)任務(wù)局限于簡(jiǎn)單目標(biāo)和場(chǎng)景下的交互,而無(wú)法理解深層的邏輯語(yǔ)義或主觀語(yǔ)義。例如,機(jī)器可以生成一朵花開(kāi)在草地上的圖像,但無(wú)法理解花草會(huì)在冬天凋謝的常識(shí)。

所以,搭建不同模態(tài)下復(fù)雜邏輯和感受語(yǔ)義信息的通信橋梁,建立特色的機(jī)器度量體系是未來(lái)多模態(tài)認(rèn)知計(jì)算的一大趨勢(shì)。

在融合機(jī)制層面,如何對(duì)由異構(gòu)部件組成的多模態(tài)模型進(jìn)行高質(zhì)量?jī)?yōu)化是當(dāng)前的一個(gè)難點(diǎn)。目前的多模態(tài)認(rèn)知計(jì)算大多是在統(tǒng)一的學(xué)習(xí)目標(biāo)下對(duì)模型進(jìn)行優(yōu)化,這種優(yōu)化策略缺乏對(duì)模型內(nèi)部異構(gòu)組成部分的針對(duì)性調(diào)整,導(dǎo)致現(xiàn)有的多模態(tài)模型存在較大的欠優(yōu)化問(wèn)題,需要從多模態(tài)機(jī)器學(xué)習(xí)與優(yōu)化理論方法等多方面切入。

在任務(wù)層面,機(jī)器的認(rèn)知學(xué)習(xí)方式隨任務(wù)而不同,我們需要設(shè)計(jì)任務(wù)反饋的學(xué)習(xí)策略,提升多種相關(guān)任務(wù)的解決能力。

另外,針對(duì)當(dāng)前機(jī)器學(xué)習(xí)從圖像、文本等數(shù)據(jù)中理解世界這種“旁觀式”學(xué)習(xí)方式的弊端,我們可以借鑒認(rèn)知科學(xué)的研究成果,如具身智能(Embodied AI)就是一個(gè)有潛力的解決方案:智能體需要與環(huán)境進(jìn)行多模態(tài)交互,才能不斷進(jìn)化形成解決復(fù)雜任務(wù)的能力。

4

對(duì)話李學(xué)龍

AI 科技評(píng)論:在人工智能研究中,我們?yōu)槭裁匆P(guān)注多模態(tài)數(shù)據(jù)和多模態(tài)認(rèn)知計(jì)算?多模態(tài)數(shù)據(jù)的增長(zhǎng)為模型的性能帶來(lái)了什么好處和阻礙?

李學(xué)龍:謝謝您的問(wèn)題。我們之所以關(guān)注和研究多模態(tài)數(shù)據(jù),一方面是由于人工智能本質(zhì)上是依賴數(shù)據(jù)的,單一模態(tài)數(shù)據(jù)能提供的信息總是非常有限的,而多模態(tài)數(shù)據(jù)在同一任務(wù)下可以提供多層次、多視角的信息;另一方面則是因?yàn)榭陀^的物理世界就是多模態(tài)的,很多實(shí)際問(wèn)題的研究離不開(kāi)多模態(tài)數(shù)據(jù),例如以文搜圖,聽(tīng)音識(shí)物等等。

我們從認(rèn)知計(jì)算的角度來(lái)分析多模態(tài)問(wèn)題,是從人工智能的本質(zhì)出發(fā),通過(guò)構(gòu)建可模擬人類認(rèn)知模式的多模態(tài)分析系統(tǒng),希望機(jī)器像人類一樣智能地感知周圍環(huán)境。

復(fù)雜交錯(cuò)的多模態(tài)信息也會(huì)帶來(lái)大量噪聲和冗余,增加模型學(xué)習(xí)壓力,使得某些情況下多模態(tài)數(shù)據(jù)的性能反而不如單一模態(tài),這就為模型的設(shè)計(jì)和優(yōu)化提出了更大的挑戰(zhàn)。

AI 科技評(píng)論:從信息論的角度看,人類的認(rèn)知學(xué)習(xí)與機(jī)器的認(rèn)知學(xué)習(xí)有何相似之處?關(guān)于人類認(rèn)知機(jī)制的研究對(duì)于多模態(tài)認(rèn)知計(jì)算有怎樣的指導(dǎo)意義?如果缺乏對(duì)人類認(rèn)知的了解,多模態(tài)認(rèn)知計(jì)算將面臨哪些困難?

李學(xué)龍:亞里士多德認(rèn)為人對(duì)事物的認(rèn)識(shí)是從感覺(jué)開(kāi)始的,而柏拉圖則認(rèn)為通過(guò)感覺(jué)得出的不能稱為知識(shí)。

人類從出生開(kāi)始就接受大量的外界信息,通過(guò)感知、記憶、推理等逐步建立自我認(rèn)知系統(tǒng),而機(jī)器的學(xué)習(xí)能力是通過(guò)對(duì)大量數(shù)據(jù)的訓(xùn)練來(lái)實(shí)現(xiàn)的,主要是在找感知和人類知識(shí)之間的對(duì)應(yīng)關(guān)系。按照柏拉圖的觀點(diǎn),機(jī)器學(xué)到的還不是知識(shí)。我們?cè)谖闹幸昧恕靶湃荨保↖nformation Capacity)的理論,嘗試從信息提取能力入手,去建立人和機(jī)器之間的認(rèn)知聯(lián)系。

人類通過(guò)視、 聽(tīng)、 嗅、 味、 觸等多種感知通道將多模態(tài)信息傳送至大腦,對(duì)大腦皮層產(chǎn)生聯(lián)合刺激。心理學(xué)研究發(fā)現(xiàn),多種感官聯(lián)合作用會(huì)產(chǎn)生“多感官整合”、“聯(lián)覺(jué)”(Synaesthesia)、“知覺(jué)重組”、“知覺(jué)記憶”等認(rèn)知學(xué)習(xí)模式,這些人類認(rèn)知機(jī)制為多模態(tài)認(rèn)知計(jì)算帶來(lái)了重大的啟發(fā),例如派生出了多模態(tài)協(xié)同、多模態(tài)關(guān)聯(lián)、跨模態(tài)生成等典型多模態(tài)分析任務(wù),同時(shí)也催生了局部共享、長(zhǎng)短時(shí)記憶、注意力機(jī)制等典型機(jī)器分析機(jī)制。

目前來(lái)說(shuō),人的認(rèn)知機(jī)理其實(shí)并不明確。缺乏人類認(rèn)知研究的指導(dǎo),多模態(tài)認(rèn)知計(jì)算會(huì)陷入數(shù)據(jù)擬合的陷阱,我們也無(wú)法判斷模型是否學(xué)到了人需要的知識(shí),這也是人工智能目前飽受爭(zhēng)議的一點(diǎn)。

AI 科技評(píng)論:您從信息論角度提出的“多模態(tài)認(rèn)知計(jì)算能夠提高機(jī)器的信息提取能力”這一觀點(diǎn),在具體的多模態(tài)認(rèn)知計(jì)算任務(wù)中有何證據(jù)支持?

李學(xué)龍:這個(gè)問(wèn)題可以從兩個(gè)方面來(lái)回答。第一,多模態(tài)信息可以提升單一模態(tài)在不同任務(wù)中的表現(xiàn)。大量的工作已經(jīng)驗(yàn)證了,在加入聲音信息時(shí),計(jì)算機(jī)視覺(jué)算法的性能會(huì)得到顯著提升,像目標(biāo)識(shí)別、場(chǎng)景理解等。我們還做過(guò)一個(gè)環(huán)境相機(jī),發(fā)現(xiàn)通過(guò)融合溫度、濕度等傳感器的多模態(tài)信息,可以提升相機(jī)的成像質(zhì)量。

第二,多模態(tài)信息的聯(lián)合建模為實(shí)現(xiàn)更加復(fù)雜的智能任務(wù)提供了可能,比如,我們?cè)鲞^(guò)“Listen to the Image”的工作,將視覺(jué)信息編碼為聲音,讓盲人“看到”眼前的景象,這也證明了多模態(tài)認(rèn)知計(jì)算幫助機(jī)器提取更多的信息。

AI 科技評(píng)論:在多模態(tài)關(guān)聯(lián)任務(wù)中,對(duì)齊、感知與檢索三者之間有什么樣的相互聯(lián)系?

李學(xué)龍:這三者的關(guān)系本質(zhì)上來(lái)講是相對(duì)比較復(fù)雜的,在本篇文章中,我僅給出了一些自己的初步看法。不同模態(tài)信息產(chǎn)生關(guān)聯(lián)的前提是它們?cè)诠餐枋鐾粋€(gè)/相似的客觀存在,但是這種關(guān)聯(lián)關(guān)系卻在外界信息冗雜或干擾時(shí)存在較難確定的問(wèn)題,這就需要進(jìn)行首先對(duì)齊不同模態(tài)的信息,確定關(guān)聯(lián)對(duì)應(yīng)關(guān)系。進(jìn)而在對(duì)齊基礎(chǔ)上,實(shí)現(xiàn)從一個(gè)模態(tài)到另一個(gè)模態(tài)的感知。

這就好比當(dāng)我們僅看到一個(gè)人的唇部運(yùn)動(dòng),能仿佛聽(tīng)到他說(shuō)的內(nèi)容。而這種現(xiàn)象的產(chǎn)生也是建立在視素(Viseme)和音素(Phoneme)關(guān)聯(lián)對(duì)齊的基礎(chǔ)上。在實(shí)際生活中,我們也將這種跨模態(tài)的感知進(jìn)一步運(yùn)用到了諸如檢索這樣的應(yīng)用中,通過(guò)文字檢索商品的圖片或視頻內(nèi)容,實(shí)現(xiàn)可計(jì)算的多模態(tài)關(guān)聯(lián)應(yīng)用。

AI 科技評(píng)論:最近非常流行的 DALL-E 等模型是跨模態(tài)生成任務(wù)的一個(gè)例子,它們?cè)谖谋旧蓤D像任務(wù)中表現(xiàn)出色,但其生成圖像的語(yǔ)義相關(guān)性、可解釋性等仍存在很大局限。您認(rèn)為應(yīng)當(dāng)如何解決這個(gè)問(wèn)題?難點(diǎn)在哪?

李學(xué)龍:從文本生成圖像是一個(gè)“想象”的任務(wù),人們看到或聽(tīng)到一句話,理解其中的語(yǔ)義信息,然后依托大腦記憶想象出最符合的場(chǎng)景,產(chǎn)生“畫(huà)面感”。目前,DALL-E 還處于利用統(tǒng)計(jì)學(xué)習(xí)進(jìn)行數(shù)據(jù)擬合的階段,對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行歸納和總結(jié),這也是目前深度學(xué)習(xí)最擅長(zhǎng)的。

但是,如果真正要學(xué)習(xí)人的“想象力”,還需要考慮人類的認(rèn)知模式,達(dá)到“高水平”的智能。這就需要神經(jīng)科學(xué)、心理學(xué)、信息科學(xué)的交叉融合,是挑戰(zhàn)也是機(jī)遇,近年來(lái)很多團(tuán)隊(duì)也在這方面做出了頂尖的工作。通過(guò)多學(xué)科的交叉融合,探索人類認(rèn)知模式的可計(jì)算性理論,也是我們團(tuán)隊(duì)努力的方向之一,相信也將為“高水平”的智能帶來(lái)新的突破。

AI 科技評(píng)論:在您的研究工作中,您是如何從認(rèn)知科學(xué)中汲取靈感的?您尤其關(guān)注認(rèn)知科學(xué)中的哪些研究?

李學(xué)龍:問(wèn)渠那得清如許?為有源頭活水來(lái)。我經(jīng)常從日常生活中觀察和思考一些有趣的現(xiàn)象。

在20年前,我瀏覽到一個(gè)網(wǎng)頁(yè),上面是江南山水圖片,當(dāng)我再點(diǎn)開(kāi)網(wǎng)頁(yè)上的音樂(lè)以后,突然有一種身臨其境的感覺(jué),這時(shí)候我就開(kāi)始從認(rèn)知的角度思考聽(tīng)覺(jué)和視覺(jué)之間的關(guān)系。在學(xué)習(xí)認(rèn)知科學(xué)的過(guò)程中,我了解到“聯(lián)覺(jué)”(Synaesthesia)這種現(xiàn)象,結(jié)合我自身的科研方向,完成了一篇題為“Visual Music and Musical Vision”的文章,這也是第一次將“聯(lián)覺(jué)”引入信息領(lǐng)域。

后來(lái),我開(kāi)設(shè)了信息領(lǐng)域第一門(mén)認(rèn)知計(jì)算課程,也創(chuàng)建了IEEE SMC的認(rèn)知計(jì)算技術(shù)委員會(huì),嘗試打破認(rèn)知科學(xué)和計(jì)算科學(xué)的邊界,當(dāng)時(shí)也給認(rèn)知計(jì)算下了定義,也就是目前技術(shù)委員會(huì)主頁(yè)上的描述。2002年,我提出了單位數(shù)據(jù)量的信息量提供能力,也就是“信容”(Information Capacity)的概念,嘗試對(duì)機(jī)器的認(rèn)知能力進(jìn)行度量,也很榮幸地在2020年以“多模態(tài)認(rèn)知計(jì)算”為題獲得了騰訊科學(xué)探索獎(jiǎng)。

到現(xiàn)在,我也持續(xù)關(guān)注著聯(lián)覺(jué)和知覺(jué)方面的最新進(jìn)展。在自然界中,也存在很多人類五感之外的模態(tài),甚至也存在目前尚不清楚的潛在模態(tài),比如量子糾纏就可能說(shuō)明了我們生活的三維空間只是高維空間的投影,如果確實(shí)是這樣,那我們的探測(cè)手段也是局限的。或許可以挖掘利用這些潛在模態(tài),讓機(jī)器接近甚至超越人的感知能力。

AI 科技評(píng)論:在如何將人類認(rèn)知與人工智能更好結(jié)合的問(wèn)題上,您提出構(gòu)建以“元模態(tài)”(Meta-Modal)為核心的模態(tài)交互網(wǎng)絡(luò),能否介紹一下該觀點(diǎn)?其理論基礎(chǔ)是什么?

李學(xué)龍:元模態(tài)本身是一個(gè)源自認(rèn)知神經(jīng)科學(xué)領(lǐng)域的概念,它是指大腦具備這樣一類組織,它在執(zhí)行某種功能或表征操作時(shí),對(duì)輸入信息的感官類別不作具體假設(shè),但仍然能夠具備較好的執(zhí)行表現(xiàn)。

元模態(tài)并非是一類突發(fā)奇想的概念,它本質(zhì)上是認(rèn)知科學(xué)家對(duì)跨模態(tài)感知、神經(jīng)元可塑性等現(xiàn)象和機(jī)理整合后的假設(shè)與猜想。它也啟發(fā)我們?nèi)?gòu)造不同模態(tài)間的高效學(xué)習(xí)架構(gòu)與方法,實(shí)現(xiàn)更加泛化的模態(tài)表征能力。

AI 科技評(píng)論:多模態(tài)認(rèn)知計(jì)算在真實(shí)世界主要有哪些應(yīng)用?舉例說(shuō)明。

李學(xué)龍:多模態(tài)認(rèn)知計(jì)算是一項(xiàng)非常貼近實(shí)際應(yīng)用的研究。我們團(tuán)隊(duì)之前有一項(xiàng)跨模態(tài)感知的工作,把視覺(jué)信息編碼成聲音信號(hào),刺激大腦皮層的初級(jí)視皮質(zhì),已經(jīng)在助殘助障中開(kāi)展了應(yīng)用,幫助盲人看到外界事物。在日常生活中,我們也會(huì)經(jīng)常用到多模態(tài)認(rèn)知計(jì)算的技術(shù),比如短視頻平臺(tái)就會(huì)綜合語(yǔ)音、圖像和文本標(biāo)簽,去為用戶推薦可能感興趣的視頻。

更廣泛地,多模態(tài)認(rèn)知計(jì)算在文章提到的臨地安防中也有廣泛的應(yīng)用,比如智能搜救,無(wú)人機(jī)和地面機(jī)器人采集到聲音、圖像、溫度、濕度等各種數(shù)據(jù),需要從認(rèn)知的角度對(duì)這些數(shù)據(jù)進(jìn)行整合分析,根據(jù)現(xiàn)場(chǎng)情況執(zhí)行不同的搜救策略。類似的應(yīng)用還有很多,比如智能巡檢、跨域遙感等等。

AI 科技評(píng)論:您在文章中提到,目前多模態(tài)任務(wù)都局限于簡(jiǎn)單目標(biāo)和場(chǎng)景下的交互,一旦涉及到更為深層的邏輯語(yǔ)義或主觀語(yǔ)義就舉步維艱。那么,這是否是符號(hào)主義人工智能復(fù)興的一個(gè)契機(jī)?在提高機(jī)器處理高級(jí)語(yǔ)義信息的能力方面,還有哪些可行方案?

李學(xué)龍:羅素認(rèn)為,知識(shí)的大部分價(jià)值在于它的不確定性。知識(shí)的學(xué)習(xí)是需要有溫度的,是能夠和外界交互與反饋的。當(dāng)前我們所看到的大部分研究屬于單模態(tài)的、被動(dòng)的、面向給定數(shù)據(jù)的研究,可以滿足一些簡(jiǎn)單目標(biāo)和場(chǎng)景下的研究需求。但對(duì)于更為深層的邏輯語(yǔ)義或主觀語(yǔ)義,需要對(duì)時(shí)空多維度下的、更多模態(tài)支持的、可主動(dòng)交互的情境予以充分地探索和挖掘。

為了實(shí)現(xiàn)這一目標(biāo),研究手段與方式方法可能可以更多地借鑒認(rèn)知科學(xué),例如,一些研究者將認(rèn)知科學(xué)中的“具身體驗(yàn)”假說(shuō)引入到人工智能領(lǐng)域,探究機(jī)器在同外界主動(dòng)交互、多種模態(tài)信息輸入情境下新的學(xué)習(xí)問(wèn)題與任務(wù),并得到了一些可喜的結(jié)果。這也展現(xiàn)出多模態(tài)認(rèn)知計(jì)算在聯(lián)結(jié)人工智能與認(rèn)知科學(xué)的紐帶作用和積極意義。

AI 科技評(píng)論:智能光電也是您的研究方向之一,您在文章中提到,智能光電能夠?yàn)樾畔⒌臄?shù)字化帶來(lái)探索性的解決思路。在多模態(tài)數(shù)據(jù)的感知和計(jì)算方面,智能光電能夠做哪些工作?

李學(xué)龍:光信號(hào)和電信號(hào)是人們認(rèn)識(shí)世界的主要方式,人類每天接收信息的大部分來(lái)自于視覺(jué),再深入一步,視覺(jué)信息主要來(lái)自于光。人類視聽(tīng)嗅味觸的五種感官也是將光線、聲波、壓力、氣味、刺激等不同感覺(jué)轉(zhuǎn)化為電信號(hào)進(jìn)行高層次認(rèn)知。所以光電是人類感知世界的主要信息來(lái)源。近年來(lái),借助各種先進(jìn)的光電設(shè)備,我們感知到了可見(jiàn)光和可聞聲波以外更多的信息。

可以說(shuō)光電設(shè)備是人類感知世界的最前端。我們從事的智能光電研究,致力于探索光電感知硬件與智能算法的一體化,將物理先驗(yàn)引入算法設(shè)計(jì)過(guò)程,利用算法結(jié)果指導(dǎo)硬件設(shè)計(jì),形成“感”和“算”的互相反饋,拓展感知邊界,達(dá)到模仿甚至超越人的多模態(tài)感知的目的。

AI 科技評(píng)論:在多模態(tài)認(rèn)知計(jì)算方向,您目前在做哪些研究工作?您未來(lái)的研究目標(biāo)是什么?

李學(xué)龍:感謝提問(wèn)。我目前主要關(guān)注臨地安防(Vicinagearth Security)中的多模態(tài)認(rèn)知計(jì)算。傳統(tǒng)意義上的安防通常是指城市安防。在當(dāng)下,人類的活動(dòng)空間已經(jīng)擴(kuò)展到了低空、地面和水下,我們需要去建立臨地空間中的立體化安全防衛(wèi)體系,來(lái)執(zhí)行跨域探測(cè)、自主無(wú)人系統(tǒng)等一系列實(shí)際任務(wù)。

臨地安防面臨的一個(gè)很大的問(wèn)題,是如何智能化地處理不同傳感器產(chǎn)生的大量多模態(tài)數(shù)據(jù),比如讓機(jī)器從人的角度去理解無(wú)人機(jī)和地面監(jiān)控設(shè)備同時(shí)觀測(cè)到的目標(biāo)。這就涉及到多模態(tài)認(rèn)知計(jì)算,以及多模態(tài)認(rèn)知計(jì)算與智能光電的結(jié)合。

在未來(lái),我會(huì)持續(xù)研究多模態(tài)認(rèn)知計(jì)算在臨地安防中的應(yīng)用,希望能夠打通數(shù)據(jù)獲取和處理之間的聯(lián)系,合理利用“正向激勵(lì)噪聲”(Pi-Noise),建立以多模態(tài)認(rèn)知計(jì)算和智能光電為支撐的臨地安防體系。

參考鏈接:
https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226;JSESSIONID=7c3d5b26-e0d8-42c1-8790-d3b5f379664e



本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
機(jī)器理解能力將超過(guò)人類?
直面“認(rèn)知”挑戰(zhàn),加強(qiáng)“智能”合作—張鈸院士等傾情分享
重磅微軟AI首席科學(xué)家鄧力:深度學(xué)習(xí)技術(shù)及趨勢(shì)報(bào)告(75頁(yè)P(yáng)PT下載)
智通分享 | 知識(shí)圖譜是人工智能的基石
認(rèn)知圖譜:第三代AI的“大”機(jī)遇
未來(lái)AI一定超越人類認(rèn)知上限 | 數(shù)據(jù)科學(xué)50人·鮑捷
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 女性| 宿州市| 吉安县| 花垣县| 东山县| 桐城市| 永平县| 濉溪县| 腾冲县| 苏尼特右旗| 通化市| 江津市| 区。| 平顶山市| 吉木乃县| 乐昌市| 阿鲁科尔沁旗| 平罗县| 昂仁县| 文化| 磴口县| 新昌县| 贡嘎县| 毕节市| 措美县| 江陵县| 蓬溪县| 宾阳县| 资兴市| 岳阳县| 宜丰县| 桦甸市| 临泽县| 马山县| 奉新县| 育儿| 时尚| 柳州市| 抚顺市| 吉木乃县| 南澳县|