雙字母組或稱二元語法(英語:bigrams,或稱digrams),作為統計分析文本使用非常廣泛;它是由兩個字母,或者兩個音節,或者兩個詞構成的雙字母組。

簡介

在給定一個前導詞情況下,雙字母組可幫助計算出現某個詞的概率,這是條件概率應用場景:

即,在給定前面一個詞的前提下,出現某個詞的概率與他們構成的雙字母組的概率一致,換言之,兩個詞同時出現的概率被出現前一個詞的概率除。

Gappy bigrams或稱skipping bigrams是允許有跳空的詞對組(也許想避免把詞連接起來,或者想允許某種模擬的依賴,如依賴語法)。

Head word bigrams是具有明確依賴關係的gappy bigrams。

應用

這種組被用在最成功的一種語音識別[1]語言模型中。它們是N字母組的一種特例。

本術語也被用在密碼學里,在此領域,試圖破解密碼電文有時二元語法頻率攻擊會被用到。參考頻率分析

英語裏雙字母組的出現頻率

據小英語語料庫的統計結果,最常見的字母雙字母的頻率是:[2]

th 1.52%       en 0.55%       ng 0.18%
he 1.28%       ed 0.53%       of 0.16%
in 0.94%       to 0.52%       al 0.09%
er 0.94%       it 0.50%       de 0.09%
an 0.82%       ou 0.50%       se 0.08%
re 0.68%       ea 0.47%       le 0.08%
nd 0.63%       hi 0.46%       sa 0.06%
at 0.59%       is 0.46%       si 0.05%
on 0.57%       or 0.43%       ar 0.04%
nt 0.56%       ti 0.34%       ve 0.04%
ha 0.56%       as 0.33%       ra 0.04%
es 0.56%       te 0.27%       ld 0.02%
st 0.55%       et 0.19%       ur 0.02%

可以獲得從更大語料庫中提取的完整雙字母頻率。[3]

參考文獻

參見

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.