情感識別主要途徑
人類有 55% 的情感都是通過面部表情來傳遞的,因此通過識別面部表情是讀取情感狀態的主要方式。20世紀 70 年代的 Ekman 與 Friesen 開發的面部動作編碼系統(Facial Action Coding System,FACS)通過將表情變化時面部肌肉的動作的分解來劃分出人臉部區域的動作單元(Action Unit),總結出了人類最常見的六種情緒:高興、悲傷、憤怒、厭惡、驚訝和恐懼。隨著后續研究的深入以及計算機視覺技術的不斷完善,相關研究逐漸深入到了面部微表情,以及表情捕捉的細化。
目前對面部表情的識別主要需要提取表情的相關特征,分別有幾何特征,即眼睛、嘴巴、鼻子等五官的坐標形成的幾何關系(見圖 1),這也是表情識別中提取最容易、最快速的特征;紋理特征,指表情圖像像素空間分布的灰度特征,該特征不易受人物姿態、光線影響從 而能提高表情識別的準確性;以及隨著機器深度學習發展能夠提取到的表情深層特征。從多角度、更加融合全面地提取人臉表情信息,能顯著提高計算機對于表情識別的能力。隨著人工智能算法適應力和監督學習的不斷加強,對表情特征的識別不再拘泥于單一特征的提取,目前自動編碼技術能將各項特征進行融合提取,有效結合各項特征的優勢,并且從搭建的表情數據庫中進行智能識別、區分和匹配,有效提升識別準確率。
在線課堂學生情感識別研究
針對學習者在學習過程中出現的情感狀態,可以通過各方面數據進行采集與識別,例如面部表情、學生的體態變化、交互數據、皮膚電導反應等,但是由于課堂教學環境的免干擾性和特殊性,難以直接在課堂中使用大量精密腦電儀器來采集學生的生理數據,而面部表情的采集則相對簡便且易操作,只需要在教室中安裝攝像頭等設備即可,可以在不干擾課堂教學的情況下借助簡單的設備進行數據的采集。通過攝像頭采集好課堂人臉數據,再結合人工智能中的表情識別技術對面部表情進行識別,運用心理學相關知識,能夠通過表情識別對學生的情感進行判斷,進而得到學生此時的學習狀態。由于在課堂情景中,學生表情是不斷變化的,因此表情的識別也具有實時的特點,需要將深層特征與淺層特征相結合來提升識別率。當人工智能與傳統教學環境進行深度融合,創生出智慧學習環境,通過對學生的情感識別來獲得全面的教學數據,能夠為教師和學生提供更加科學、個性化的教育指導。
在學習情境中對學生情感的采集最先出現于在線教學平臺,為研究這些情感對學生的學習產生的影響,已有研究者通過建立學生情感的智能捕捉系統對在線 教學平臺的學生人臉進行智能識別,主要聚焦在學生情感的敏感程度,系統會自動識別學生在聆聽教師授課、進行師生交互等時的肢體運動、會話情況與面部表情,綜合判斷分析后形成對學生情感態度的識別。第一步是識別系統定位并跟蹤瞳孔,這個系統實現了實時、高精度的跟蹤(誤差小于 1 像素每個控制點),無須校準。第二步是該系統將實時顯示面部上部特征(眼睛和眉毛)。第三步是根據標簽識別面部動作單位,即面部肌肉運動,將六個面部特征動作單元進行融合識別。第四步涉及將動作單元激活模式與不同情緒聯系起來,這是通過識別伴隨每種情緒的行動單元來實現的。例如困惑主要表現為眉毛低垂,眼瞼緊繃。步驟 1、2 和 3 已完全完成自動化,在實施步驟 4 后將基于面部特征的自動情感識別系統,產生一個全面的解決方案。此系統主要將學生的學習者情感分為厭惡、沉浸、困惑和沮喪這四種狀態,自動系統能運用動畫化的方式對學生的情感進行及時反饋。
基于人臉識別的方法來識別學生在整個遠程學習過程中的情感狀態也在不斷更新,有研究提出了更為準確高效的學習情緒識別模型,該模型包括三個階段:特征提取、子集特征和情緒分類器。采用 Haar-Cascades方法檢測輸入圖像中的人臉,作為提取眼睛和嘴巴的基礎,然后通過 Sobel 邊緣檢測得到特征值。通過神經網絡分類器訓練,得到六種不同的情緒類別,分別是傷心、驚奇、開心、憤怒、厭惡、恐懼。使用 JAFF 數據庫進行的實驗表明,該方法具有較高的分類性能。實驗結果表明提出的模型與虛擬學習環境下學生學習情境的表達是一致的,也進一步證明了基于面部表情的情感識別在遠程教育中是可行的,可以實時識別學生的學習狀態。因此,它可以幫助教師根據學生的情緒改變虛擬學習環境中的教學策略。
目前投入使用的在線教學面部識別有微軟Microsoft Azure 情感 API,可從圖像、視頻中檢測到人物的性別和人臉的基本情感。諾達斯(Noldus)公司推出的面部表情分析系統在超過 1000 所全球性的大學、研究機構、以及企業投入使用,能夠客觀評估情感,并與行為觀察分析系統整合,進行可視化操作。該系統能即時地分析數據,包括實時視頻或靜態圖像。目前可用的基本表情分類軟件的平均準確率達到 88%,而其中的面部表情分析系統的準確率更高達 96%。LCA Learning 公司開發的 Nestor 軟件(見圖 2)帶有人工智能和面部識別技術,能判斷學生上課時有沒有注意力不集中的情況,并且已經在法國的 ESG 商學院的兩門線上課程中使用,使用這款軟件是利用計算機網絡攝像頭能夠捕獲在線學習學生面部表情與眼動信息,評估學生注意力與參與度,通過數據分析可以幫助教師了解到學生感興趣的課程內容,目前該軟件應用到了課堂教學中,并且可以幫助教師上課時觀察到學生注意力是否分散,隨時根據學生的狀態調整他們的教學計劃。另外,教師也可以根據這些數據了解到學生注意力下降時可能錯過的知識點,以此來調整考試內容,鞏固教學成果。
線下課堂學生情感識別研究
基于在線學習系統的研究往往是一對一教學,光照、姿態等影響較小。而在學生較多、相互間可以交流的課堂自然環境下進行情感檢測,學生之間的走動、手勢、交談等都會對實驗帶來挑戰。情感檢測是智能教育界面的關鍵組成部分,可以對學生的情感狀態做出反應。
Bosch 等研究者常年來一直在運用實驗的方式試圖解決這一現實情境的困難,通過有效性檢測的開發來響應學生情感需求的智能教育界面的關鍵組成部分。在學校計算機實驗室的真實環境中收集學生面部表情(主要通道)和全身運動(次要通道),并將結果在學生層面進行了交叉驗證,以確保對新生進行推廣。實驗捕捉的情感狀態包括無聊、困惑、愉悅、投入和挫敗,這五種情感總體分類具有一定代表性(65%)。之后該團隊在另一個實驗中再次討論了課堂環境下教育軟件情感敏感界面的使用,實驗使用計算機視覺、學習分析和機器學習來檢測學生在學校計算機實驗室的真實環境中的情緒,該實驗室一次容納多達 30 名學生。學生們四處走動,做手勢,互相交談,完全模擬真實課堂情景。盡管存在這些現實挑戰,研究仍然成功地以一種在學生、時間和人口統計中普遍存在的方式成功地發現了無聊、困惑、喜悅、沮喪和專注等學習情緒。該模型盡管使用的是嘈雜的真實數據,但在 98% 的情況下仍然適用。
隨著研究的深入,已有新的技術不斷運用到表情識別領域,使用計算機視覺技術預測學生的情緒和行為參與是一項具有挑戰性的任務。雖然有幾種最先進的技術可用于分析電子學習環境中學生的情感狀態(單個圖像幀中的單人參與檢測),但很少有可用于分析課堂環境中學生的情感狀態(單個圖像幀中的多人)。相關研究提出了一種新的混合卷積神經網絡(CNN)結構,用于分析課堂環境中學生的情感狀態。該體系結構由兩個模 型組成,第一個模型(CNN-1)用于在單個圖像幀中分析單個學生的情感狀態,第二個模型(CNN-2)使用單個圖像幀中的多個學生。混合架構可以預測整個班級的整體情感狀態。該架構利用學生的面部表情、手勢和身體姿勢來分析他們的情感狀態。此外,由于無法獲得用于學生情感狀態分析的標準數據集,研究在數據集上創建、注釋和測試了一個圖像幀中 8000 多張人臉和一個圖像幀中 12000 多張人臉,它們具有三種不同的情感狀態,即:投入、無聊和中立(見圖 3)。實驗結果表明,課堂數據的姿勢和自發情感狀態的準確率分別為 86% 和 70%。
實時課堂學生情緒識別主要聚焦在學生注意力的評估。Janez 等研究者使用 Kinect One 傳感器獲得的2D 和 3D 數據來構建一個特征集,描述學生的面部和身體屬性,包括注視點和身體姿勢(見圖 4)。不同的時間機器學習算法用于訓練不同的學生的注意力水平,個人獨立三級注意分類器達到了 0.753 的中等精度,與學生參與領域的其他研究結果相當。基于 Kinect 的注意力監控系統能夠預測學生在一段時間內的注意力以及平均注意力水平,可以作為一種工具,對學習過程進行非侵入性的自動分析。也有研究通過識別學生臉上的動作單元來識別專注于學習的情緒。被認知的以學習為中心的情緒是無聊和感興趣的。這項工作從實時捕捉大學生進行學習活動的面部圖像開始,到識別情緒結束。記錄學習過程的視頻,獲得圖像幀,然后用于識別每個學生面部的參考點,對其進行三角剖分以獲得幾何特征。后者使用模糊推理算法,該算法將隸屬度分配給與無聊和感興趣的情緒相關的 16 個動作單元。模式識別算法,如支持向量、近鄰、樹集合和神經網絡,都是根據每個動作單元的隸屬度百分比進行訓練的。在對不同配置下的訓練模型進行測試后,使用一個準確率為83% 的神經網絡觀察到了更好的結果。
學生課堂情感作為一個豐富的過程,其情感狀態經常影響學習任務的進度,產生積極或消極的影響。學生面部表情與學習收益之間存在聯系,當學生外眉抬高,呈現學習增益負相關;學生外眉降低則與挫折感呈正相關。隨著人工智能技術的不斷發展,情感識別的準確率和覆蓋率將得到提升,利用機器學習評估學生注意力水平,從而實現自動學習過程分析,提高學生課堂注意力,改善學習過程,了解學習過程中學生的認知情感狀態,從而為后續指導設計情感輔導干預打基礎,為教育教學提供新的可能。
(本文作者單位系華東師范大學課程與教學研究所)
(本文原載于《上海教育》雜志2022年8月10日出版,版權所有,更多內容,請參見雜志)