在計算機聽覺研究領域裡,聽覺場景分析是由類比計算機視覺研究中的「視覺場景分析」概念而建立的聲音信號處理模型。聽覺場景分析部分藉助於格式塔學派提出的規則來研究聽覺組織的加工過程。 它包括:

  • 初級分析:着重研究序列整合與同時性整合;
  • 圖式加工:涉及到注意與知識的作用以及言語知覺的特殊性等;

場景分析能夠較好地說明簡單音和複合音的知覺組織過程,但目前尚不能很全面地解釋言語加工過程,故其理論仍然存在一定局限性。

研究狀況

人類對於聲音信號的處理依據有哪些規則?對於這個問題,認知心理學很早就有了較為全面的答案。Bergman在1990年對此方面的研究進行了詳盡的整理,總結出了以格式塔規則為基礎的一系列感知結論,首次提出了「聽覺場景分析」的概念。 [1]

而在此之前,Weintraub於1985年就已建立了世界上第一個模擬單耳聲源分離原理的人工聽覺系統,將兩個聲音信號成功分離[2]。這便成為了聽覺場景分析模型的雛形。後續的研究沿着類似的思想,不斷地對模型進行完善[3][4][5]。到2006年,根據人類聽覺信號處理規則和特點建立起來的聽覺場景分析模型已經相當完善,能夠較好地將基頻分布範圍內處於相同頻帶上的多個聲音信號同時進行分離。

參考

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.