語言模型

語言模型是一個自然語言中的詞語概率分佈模型^[1]^[2]，例如提供一個長度為 $m$ 的字詞序列 $w_{1},w_{2},...,w_{m}$ ，計算這些字詞的概率： $P(w_{1},\ldots ,w_{m})$ 。通過語言模型，可以確定哪個詞語出現的可能性更大，或者通過若干上文語境詞來預測下一個最可能出現的詞語。^[3]

語言模型經常使用在許多自然語言處理方面的應用，如語音識別^[4]，機器翻譯^[5]，詞性標註，句法分析^[6]，手寫體識別^[7]和資訊檢索。由於字詞與句子都是任意組合的長度，因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題)，也使得在語料庫中估算字串的概率變得很困難，這也是要使用近似的平滑n-元語法(N-gram)模型之原因。

在語音辨識和在資料壓縮的領域中，這種模式試圖捕捉語言的特性，並預測在語音串列中的下一個字。

在語音識別中，聲音與單詞序列相匹配。當來自語言模型的證據與發音模型和聲學模型相結合時，歧義更容易解決。

當用於資訊檢索，語言模型是與文件有關的集合。以查詢字「Q」作為輸入，依據概率將文件作排序，而該概率 $P(Q|M_{d})$ 代表該文件的語言模型所產生的語句之概率。

[1]

[2]

[3]

[4]

[5]

[6]

[7]