多模態(tài)情感識別在情感計算中是一個具有挑戰(zhàn)性的課題,因為從多模態(tài)數(shù)據(jù)中提取出具有判別性的特征來識別人類情感中的細微差距仍有很高的難度。當前的研究中,基于現(xiàn)有的三種多模態(tài)融合的策略:特征層融合、決策層融合和模型層融合提出的算法都是偏向淺層的特征融合方案,容易造成聯(lián)合特征表達的判別性不足。而設計精巧的融合模型或大型神經(jīng)網(wǎng)絡由于復雜的設計和龐大的參數(shù),又使得特征提取的耗時過長。為了解決多模態(tài)聯(lián)合特征判別性不足和特征提取耗時之間的矛盾,本文提出了一種深度模態(tài)融合的網(wǎng)絡模型來完成多模態(tài)數(shù)據(jù)融合的情感識別任務。該模型首先利用滑動窗口將音視頻信號切割成數(shù)據(jù)片段,獲得最小邊框標記的人臉關鍵幀圖像和語音信號的三維梅爾倒頻譜,對兩路輸入信號分別使用帶殘差的深度方向可分離的卷積核進行特征提取和特征融合,最后在聯(lián)合特征上訓練分類器,實現(xiàn)包括喜悅、悲傷、驚喜、厭惡、憤怒、恐懼和正常在內(nèi)的七種不同情感的分類任務。本文在RML、eNTERFACE05和BAUM-ls音視頻情感識別公開數(shù)據(jù)集上進行了訓練和測試,實驗結果取得了較好的分類效果。為了能夠拓寬情感識別技術在各個領域中的應用,本文設計并實現(xiàn)了一個多模態(tài)情感識別分析系統(tǒng),系統(tǒng)包含了數(shù)據(jù)采集輸入、數(shù)據(jù)預處理、情感識別算法、數(shù)據(jù)分析計算、前端可視化和系統(tǒng)管理等六個模塊。該系統(tǒng)可以根據(jù)數(shù)據(jù)模態(tài)的不同,選擇不同的識別算法,實現(xiàn)對離線圖片、音頻、視頻文件等多種模態(tài)數(shù)據(jù)的情感識別,支持對視頻數(shù)據(jù)進行視頻情感成分分析和實時視頻情感識別兩類任務。本文對該系統(tǒng)進行了詳細的設計和實現(xiàn),測試了系統(tǒng)各項功能,并將系統(tǒng)應用于社交媒體中的視頻觀點分析和醫(yī)療康復中的視頻識別輔助。