語音文件檢索是針對以聲音形式存在的文件的資訊檢索。其基本定義為:是給定一個檢索以及一定數量的語音文件,返回與檢索需求關係最為接近的文件集合。從狹義上說,檢索需求指的是一些檢索詞或短語,而相關性指的是語音內容與檢索需求的關係。從廣義上說,檢索需求還包括說話人,說話風格等高層次的資訊。
此條目沒有列出任何參考或來源。 (2020年2月22日) |
最基本的語音文件檢索系統有以下三個主要任務:
- 對語音文件進行切析與辨識,提取出語音中內容資訊。
- 對於辨識結果建立索引。
- 根據用戶的檢索需求,返回語音文件。
語音文件檢索需要從語音中提取資訊,而提取資訊的方法包括使用語音辨識引擎或藉助人工標註。在網絡環境下,根據語音檔案所在網頁周圍的文字資訊也可以很好的輔助檢索。
若使用語音辨識進行內容分析,需要解決的問題包括語音/非語音的判決Voice Activity Detection VAD,語音背景噪聲消除,說話人資訊的辨識,及語音辨識的準確性問題。
參考文獻
外部連結
[1] Google 語音索引
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.