情感計算(英語:Affective computing,亦作人工情感智能,英語:artificial emotional intelligence,或情感AI,英語:emotion AI)[1]是一個跨學科領域,涉及計算機科學、 心理學和認知科學,旨在研發能夠識別、解釋、處理、模擬人類情感的系統。[2]雖然該學科最早可追溯至早期的哲學研究,即人們對情緒[註 1]的剖析,[3]但真正使其成為現代計算機科學分支的,則是1995年羅莎琳·皮卡德發表的關於情感計算的論文。[4][5][6]人們研究情感計算很大程度上是為了能夠模擬共情——機器應該能夠解釋人類的情緒狀態,做出相適應的行為,對情緒給予恰當的回應。
文本情感分析(英語:sentiment analysis)和情感分析的區別在於,前者僅辨識詞語的情感極性,後者辨識人類的不同情緒。
研究範圍
在認知科學和神經科學中,描述人類感知,並對人類情感進行分類的模型主要有兩種: 連續模型(英語:continuous model)和分類模型(英語:categorical model)。若將可能的面部表情視作一個空間,那麼連續模型將每個情緒的面部表情定義為該空間的特徵向量(比如,該模型能夠將不同的情緒解釋為不同的表達強度)。相反,分類模型由數個不同的分類器組成,每個分類器各自偵測不同的情感。這個模型解釋了許多現象。例如,如果在快樂與驚奇的表情圖片之間插入變形序列的話,在這些過渡圖像中,人們看到的要麼是快樂要麼是驚奇的神情,而不會認為是兩者兼有。
中國自古代就有「喜、怒、哀、懼、愛、惡、欲」的「七情」說法,這便是情緒分類模型的一個例子。情緒的正確分類是心理學上歷來的爭議話題,現代心理學中對此大致有兩種觀點,一種認為情緒可以被割裂地劃分為幾類,另一種認為大部分情緒本質相同,僅僅是程度上存在差異。[7]持分類模型態度的心理學家大多贊成將情感分為基礎情感和複合情感。[8][9]
維度情緒論是基本情緒論之外的另一種情緒研究觀點,認為情緒固有性質存在度量,即維度(英語:dimension)。維度具有兩個方向的極端,即極性(英語:polarity)。關於情感的連續模型並沒有統一的標準評價其好壞,常見的連續情感模型有:[7]
情感信息的檢測會從被動式傳感器開始,它能夠捕捉到用戶的生理狀態、行為表現方面的原始數據,這些數據和人類用以覺察他人情感的線索很相似。例如,攝像機可以捕捉面部表情、身體姿勢和手勢,麥克風則可以捕捉語音。一些傳感器還可以通過測量生理數據(如皮膚的溫度和電勢)來探測情感線索。[12]
識別情感信息需要從收集的數據中提取有意義的模式,通常要用到多模態的機器學習技術(如語音識別、自然語言處理、面部表情檢測)。處理的結果要麼會被打上標籤,要麼會映射到「正負性—喚醒度(valence–arousal)」空間上的點。
設計一種計算設備,使其能夠展現出天然的情感能力(或是至少令人信服地模擬出人類的情感),是情感計算的另一研究範圍。基於現有的技術能力,模擬對話機械人的情感是更具可行性的一種做法,以此來豐富並推動人與機器之間的互動。[13]正如人類的情感和激素水平以及神經肽的波動息息相關,機器中的情感可能會與其自動學習過程的進展(或無進展)的抽象狀態相關聯。以此觀之,不論是人還是機器,情緒狀態與其學習系統的學習曲線對時間的導數(即「擾動」)相關。
人工智能的先驅之一——馬文·閔斯基,在《情感機器》一書中將情感和機器智能這一更為廣泛的概念聯繫了起來。他說,情感「和我們稱之為『思考』的過程並沒有顯著差別」。[14]
識別技術
這些方法有一個很重要的共同缺陷:它們只能從圖像中檢出一種情緒,也就是在應用了各種方法中勝出的那個情緒;但在日常生活中,我們總能從單一圖像中感知到不止一種情感。分類和連續模型都無法識別多種情感,因此對情感建模有一種新方法,即將一小部分類別的重疊視為一個新類別。有關這一主題的詳細研究請參見綜述《人類對面部表情情感的感知模型:研究現狀與展望(A model of the perception of facial expressions of emotion by humans: research overview and perspectives)》。[15]
以下各節將介紹可用於情感識別的特徵。
自主神經系統的各種變化可以對人的語音產生間接影響。情感技術可以利用這些信息來識別情感。例如,在恐懼、憤怒或歡樂的狀態下產生的言語會變得快速、大聲,更確切地說,音域會更寬更高;而在疲勞、無聊或悲傷等情緒下,語音傾向於變得緩慢、低沉與不清楚。[16] 有些情感被證實更容易通過計算識別,如憤怒[17]或贊同[18]。
情感語音處理技術可以利用語音特徵的計算分析來識別用戶情緒狀態。模式識別技術可被應用於聲學參數和韻律特徵,例如音調高低和語速等。[17][19]
語音分析可以高效地分析情感狀態,在最近的研究中達到了70%至80%的正確率。[20][21]這一正確率已經超過了普通人識別精度的均值(大約60%),但是比生理學或面部識別方法的正確率要低。[22]然而,由於大多語音特徵與文化或語義無關,研究者認為這是一個未來的研究前景方向[23]。
進行語音/文本的情感檢測需要建立可靠的數據庫、知識庫或者向量空間模型[24]。為了適應各種應用,這些庫或是模型涉及面應當足夠廣泛。另外,還需要選擇出一個又快又準確的情感分類器。
目前,常用的分類器有線性分類器、k-近鄰(k-NN)、高斯混合模型、支持向量機(SVM)、人工神經網絡(ANN)、決策樹算法和隱馬爾可夫模型(HMM)[25]。各種研究表明,選擇合適的分類器可以大大提高系統的效率與精度。以下簡要說明每個算法:
- 線性分類器:特徵以向量的形式表示,通過計算特徵的線性組合來分類。
- k-近鄰算法:計算並選取特徵空間中的點,將其與k個最近的數據點相比較,分類決定於比較點中頻數最大的類。
- 高斯混合模型:是一種概率模型,用以發現並表示整體中局部的存在。利用特徵的多個高斯概率密度函數混合來分類。[26]
- 支持向量機:一種(大多是二分的)線性分類器,可將空間分成兩個(或更多)集合,來實現對點的分類。
- 人工神經網絡:利用多層的、仿生的神經網絡進行複雜的非線性分類。
- 決策樹學習:在一顆樹中,每個葉子結點都是一個分類點,分支(路徑)代表了一系列相鄰接的特徵,最終引向葉子節點實現分類。
- 隱馬爾可夫模型:是一種馬爾可夫統計模型,其中的狀態與狀態轉移並不直觀。而依賴於這些狀態的輸出序列是可見的。在情感識別領域,輸出代表了語音特徵向量序列,其使得狀態序列可在模型處理時被推導出來。這些狀態包括情感表達中的各中間步驟,每個狀態在輸出向量上都有一個概率分佈。狀態序列是我們能夠預測正在試圖分類的情感狀態,這也是語音情感識別中最為常用的技術之一。
研究證實,有了足夠的聲音樣本之後,人的情感可以被主流分類器所正確分類。文獻建議使用的模型由以下三種組合而成:k-NN、C4.5決策樹和徑向基函數核的SVM。這一組合模型比每單個分類器性能都更好,也超過了使用混合核(英語:Hybrid kernels)的「一對多」(英語:one-against-all, OAA)多類SVM,以及C5.0決策樹與神經網絡的組合[27]。
目前絕大多數的系統都是數據依賴的。選擇一個恰當的數據庫來訓練分類器因而成為語音情感識別的首要問題。目前擁有的大部分數據是從演員獲得的,都是一些典型的情緒表現。這些所謂的表演數據庫大多基於保羅·艾克曼的基礎情緒理論,其假設了六種基礎情緒的存在,即憤怒、害怕、厭惡、驚奇、愉快和哀傷,而其他情緒僅僅是前六者的組合。[28]
另一方面,對現實生活應用來說,自然數據更受青睞。通過觀察並分析被試在自然情境下的行為,研究者可以建立自然情感的數據庫。最終,自然數據庫會幫助系統識別情境下的情緒,也可以用來發現交互的目標和結果。由於這類數據的自然性,可以真實自然地反映人機交互下的情感狀態,也就可以應用於現實生活中的系統實現。
儘管自然數據相比表演數據有更多優勢,然而自然數據難以獲得,情感密度也更低。由於環境噪聲的存在、被試與麥克風的距離較遠,自然情境下獲得的數據信號質量也因此更差。埃爾朗根-紐倫堡大學的AIBO情感資料庫(FAU Aibo Emotion Corpus for CEICES, CEICES: Combining Efforts for Improving Automatic Classification of Emotional User States)是建立自然情感數據庫的首次嘗試,其採集基於10—13歲兒童與索尼AIBO寵物機械人玩耍的真實情境。[29][30] 同樣,在情感研究領域,建立任何一個標準數據庫,都需要提供評估方法,以比較不同情感識別系統的差異。
情感識別的複雜度隨情感類別和語音敘詞的增加而增加,因此選取最為相關的特徵是必要的。這樣做不僅可以確保模型識別情感的成功率,也可以提升計算性能,尤其對實時檢測系統更要如此。可選項很多,有些研究曾提到超過200種不同的特徵。[25]最為常見的語音特徵被歸納為以下列表[29][30]:
- 頻率特徵
- 音調形狀(英語:accent shape):由基礎頻率改變的頻度所影響
- 平均音高:講話者相對於正常說話的高低
- 音高輪廓(英語:counter slope):頻率隨時間變化的趨勢,可升高、降低或持平
- 尾音下降(英語:final lowering):一段話末尾頻率下降的多少
- 音域:一段話最高頻率和最低頻率的差值
- 時間相關特徵:
- 語速:單位時間內詞數或音節數
- 重音頻率(英語:stress frequency):重讀發生的頻率
- 音質參數與能量敘詞:
- 呼吸音(英語:breathiness):說話中的呼吸噪聲
- 透明度(英語:brilliance):語音中高頻和低頻的佔比
- 響度:語音波形的振幅
- 間斷不連續性(英語:pause discontinuity):描述有聲和靜默之間的轉換
- 音調不連續性(英語:pitch discontinuity):描述基礎頻率的轉換
面部表情的檢測和處理可以利用隱馬爾可夫模型和人工神經網絡等方法,也可在多模態的檢測中將各種方法組合或交融起來(多模態,例如面部表情和語音韻律結合[31]、面部表情和手勢結合[32]、面部表情和語音與文本的多模態數據與元數據分析),以更加穩健地估計對象的情感狀態。
建立情感數據庫極其困難和耗時,然而其又是識別人類情感的必要步驟。大多公開的情感數據庫僅包含擺拍的面部表情,在這樣的數據庫中,參與者會被要求擺出不同基礎情感的對應表情;而在自然表情數據庫中,面部表情是自發的。自然表情的發生需要選取恰當的刺激,這樣才能引起目標表情的豐富展示。其次,這個過程需要受過訓練的工作者為數據做標註,以實現數據庫的高度可靠。因為表情及其強度的感知本質上是主觀的,專家的標註對驗證而言是十分重要的。
研究者接觸到的數據庫可能包括以下三種:峰值表情(英語:peak expression image)數據庫、中性到峰值表情的圖像序列數據庫和打上了情感標註的視頻片段。被廣泛使用的開放表情數據庫有CK+和JAFFE。
在20世紀60年代末,保羅·艾克曼在巴布亞新幾內亞的法雷人部落中進行了跨文化研究,之後提出,情感所對應的面部表情是普遍的,與文化無關。因此他提議,面部表情是生物本能,可以安全、正確地被歸類。此後,他於1972年正式提出六個基本的情感:[33]
之後在1990年代,艾克曼在基本情感列表中加入了一系列的積極和消極的情緒。並不是所有這類情感都對應於面部肌肉[34]新加入的情感如下:
依肌肉動作定義表情的方法已經被應用於情感生理表達的形式分類。在由保羅·艾克曼(Paul Ekman)和華萊士·V·弗里森(Wallace V. Friesen)提出的面部表情編碼系統(英語:Facial Action Coding System, FACS)中,動作單位(英語:action unit, AU)是核心概念。[35]即,一塊多一組肌肉的收縮或舒張。儘管這一概念看起來簡單,但已經足以建立和描述複雜的情感識別系統。
通過識別不同的面部特徵,研究人員能夠將其映射到相應的行為單元代碼。據此,他們依這些單位提出了六種基本情緒的分類(「+」意思是「和」):
情感 | 行為單位 |
---|---|
快樂 | 6+12 |
悲傷 | 1+4+15 |
驚訝 | 1+2+5B+26 |
恐懼 | 1+2+4+5+20+26 |
憤怒 | 4+5+7+23 |
厭惡 | 9+15+16 |
蔑視 | R12A+R14A |
正如計算領域的大多數問題一樣,面部表情處理的情感檢測也會遇到種種障礙需要克服,這樣才能開發出選用算法的潛能。建模與追蹤的準確性長久以來就是個問題,特別是在情感計算領域的早期。隨着硬件的發展、新方法的創造與時間,精度缺乏的問題逐漸淡出,而噪聲問題依舊。降噪的方法也是存在的,如鄰域平均、線性高斯平滑、中值濾波等。[36] 比較新的方法還有菌群優化算法(英語:Bacterial Foraging Optimization Algorithm)。[37][38][39]
一般認為面部表情識別的準確度等級(並非情感狀態識別的準確度等級)還沒有達到可以廣泛應用的層次。曾經有過將這樣的技術應用於執法的實踐,例如辨識罪犯,但並不成功。在沒有提升掃描人臉的軟硬件精度的前提下,準確度的進步已大大放緩。
其他問題包括:
- 大多研究中所使用的構成表達式其實並不自然,因此不是100%準確的。
- 缺乏旋轉運動的自由度。 情感檢測在正臉使用效果很好,但將頭部旋轉超過20度時,就會「出現問題」。[40]
身體姿態是檢測用戶的特定情緒狀態的有效手段,特別是與語音和臉部識別一起使用時。依動作的不同,身體姿態分為反射性的(如被問題問住時下意識的抬肩膀)、複雜與有意義的(如手語交流)等。在不藉助外物或環境的情況下,我們可以揮手、拍手或招手;藉助外物時,則可以指向、移動、觸碰和持握。計算機應該做到識別這些信息,以更有效地應用於人機交互。
身體姿態的檢測已經有了很多方法提出。[41] 一些文獻將以下兩種識別途徑區別開來:基於三維模型的,和基於外觀的(英語:appearance-based)。[42]前者將肢體關鍵部位的三維信息利用起來,以獲得若干重要參數,例如手掌位置和關節角度;後者則是直接利用圖像或視頻做解釋。手勢是身體姿態情感研究的一大集中領域,上文所提到的三維模型和外觀方法都有在此使用。
生理信號可用以檢測與分析情緒狀態,這些生理信號通常包括脈搏、心率、面部肌肉每分鐘收縮頻率等。這一研究領域仍處於相對起步的階段,但發展迅猛,並已經有實用的產品出現。常被用來分析情感的生理信號種類有血容量脈衝、皮膚電反應、面部肌電圖等。
血容量脈衝(英語:blood volume pulse, BVP)通過光電容積描記法記錄,該方法可以檢測肢體末端的血流變化。[43] 記錄峰值代表着心搏周期中血流被泵到肢體末端。當被試受到驚嚇或感到害怕時,他們往往會心跳加速,導致心率加快,從而在光電容積描記圖上可以清楚地看到波峰與波谷間的距離變小。被試平靜下來後,血液流回末端,心率回歸正常。
在皮膚上照射紅外光,利用特製傳感器檢測光的反射量。由於紅外光被血液中的血紅蛋白吸收,反射光與BVP相關。
確保傳感器發射紅外光並確保檢測點始終在同一肢端上相當麻煩。尤其是被試需要伸展身體,也會因為使用電腦變化姿勢,這更為檢測增加了難度。影響血容量脈衝還有其他因素,例如被試覺得冷了或熱了,都會導致血液向肢體末端流動的狀態發生改變,而這與其情緒狀態無關。
面部肌電圖(肌電圖,英語:electromyography, EMG)可以用來檢測面部肌肉活動,放大肌纖維收縮的微小電流。[44]面部表情和情緒關聯性極大,以下兩組肌肉是情感檢測的主要研究對象:皺眉肌(用來檢測負向情感效果最佳)和顴大肌(微笑時揚起嘴角用到的肌肉,用來檢測正向情感效果最佳)。
皮膚電反應(英語:galvanic skin response, GSR)是皮膚電導的度量,與皮膚的濕潤程度相關。由於汗腺分泌受神經系統控制,GSR同身體的喚醒度狀態有關。被試喚醒度越高,皮膚電導和GSR數值越大。[43]
皮膚電的測量使用兩個氯化銀電極,將其貼置於皮膚表面並施加一個小電壓。電導由傳感器測定。為了減少不適感、減輕刺激,電極可以貼在腳上,以達到釋放雙手、允許被試操作鼠標鍵盤的目的。
藝術和攝影世界中的美學指的是美的本質和欣賞原則,對美和其他審美特質的判斷是高度主觀的事情。賓夕法尼亞州立大學的一組計算機科學家,將自動評價圖像的審美特質視作機器學習的一大挑戰,他們將一個同行評級的在線照片分享網站作為數據源,[45]從中抽取了特定的視覺特徵,可以作為圖像導致審美愉悅或不愉悅之間的差別。
潛在應用
正如人工智能先驅馬文·閔斯基在其著作《心智社會》所指出的:「問題不在智能機器是否擁有情感,而是在機器有了智能之後怎樣可以沒有情感。」[46]人與人之間的交流因科技的發展而越來越頻繁,但通訊過程本身是與機器打交道,而不是與人。在機器愈發智能的21世紀初期,人也越發不滿於機器在情感上的冰冷。與機器溝通過程更加友好的需求,使得情感計算在人機交互等領域存在着大量潛在應用。[7]
情感計算可以提升人機交互中的用戶體驗,例如情感鏡子讓用戶看到自己如何表現情緒、情感監控機械人會在發送憤怒的電子郵件之前發出警告、音樂播放器可以根據情緒選擇曲目。[47]
可處理情感信息的機械人系統在不確定或複雜的環境中展現出了高度的靈活性。陪伴性設備,比如電子寵物可利用情感計算能力提升真實感並帶來更高的自主性。社交機械人,以及越來越多的被用於醫療的機械人,因為能夠識別情感,可以更好地判斷用戶或患者的情緒狀態,以及時對自身的行為或程序做出調整。在老齡化和缺乏年輕醫療工作者的國家,這些應用可以解決很多社會問題。[48]
在電子學習應用中,情感計算可以用來發現學習者厭倦、感興趣、沮喪或高興的情況,以調整計算機中教師的教學風格與節奏。[49][50]
羅馬尼亞研究人員Nicu Sebe博士在採訪中提出了一個想法,即分析使用某種產品時(原話以雪糕為例)一個人的面部表情。[51]企業可以通過這類分析來推斷他們的產品是否會被相應的市場所接受。人們可以利用實時視頻記錄被試者的面部表情,使用情緒狀態識別,來判斷電視廣告的有效性。綜合考慮從大量被試者身上獲得的結果,就可以判斷該廣告(或電影)是否具有預期的效果,以及觀眾最感興趣的要素是什麼。
情感型電子遊戲可以通過生物反饋設備獲取玩家的情緒狀態。有一些簡單的生物反饋形式,例如通過測量遊戲手柄按鈕按壓的壓力,可以獲知玩家的喚醒度水平,二者已被證明具有很強的相關性。另一方面的應用是腦機接口。情感遊戲已被用於醫學研究,以改善自閉症兒童的情感發展。[52]
情感計算也可以應用於社會監督,改善社會治安、改善居民幸福感。配有情感計算裝置的汽車可以監測駕駛者和乘客的情緒狀態,採取相應的安全措施。舉例來說,可以在檢測到駕駛者生氣時做出善意的提醒,以規避事故的發生。[53]
情感計算也被應用於開發自閉症患者與外界交流的技術。[54]心理諮詢在確定患者情感狀態時也可從情感計算中受益。
認知主義與交互方法之爭
在人機交互領域,羅莎琳·皮卡德所倡導的認知主義或「信息模型(英語:information model)」情感概念受到了實用主義者的批評,後者篤信「後認知主義(英語:post-cognitivist)」或「交互方法(英語:interactional)」,其代表人有柯爾斯頓·伯納(Kirsten Boehner)等,他們認為情感本質上是社會性的。
皮卡德專注於人機交互,她對情感計算的目標是「讓計算機認知與表達情感,甚至在某些場合下『擁有』情感」。[55] 相比之下,交互方法尋求「讓人們理解與體驗自身情感」 ,增進以計算機為中介的人際交往,而並不一定要求得情感向客觀數學模型的映射,來便於機器理解;情感計算應當讓人類暢通無阻地理解彼此的情感,而這些情感信息往往會是歧義的、主觀的或上下文敏感的。[56]:284
皮卡德的批評者將她的情感概念描述為「客觀的、內部的、個人的和機械的」。 他們認為這將情緒降格成可測量的離散生理信號,而生理信號實際上只是認知的輸入。情緒體驗的複雜性則被忽視了。[56]:280[56]:278
交互方法認為,雖然情感具有生物物理性,但它是「以文化為基的、動態體驗的、某種程度上是行為和交互中構建的」。[56]:276換言之,交互方法認為「情感是通過交互體驗到的社會與文化產物」。[57][56][58]
註釋
參見
參考文獻
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.