雙字母組或稱二元語法(英語:bigrams,或稱digrams),作為統計分析文本使用非常廣泛;它是由兩個字母,或者兩個音節,或者兩個詞構成的雙字母組。
此條目翻譯品質不佳。 |
簡介
在給定一個前導詞情況下,雙字母組可幫助計算出現某個詞的概率,這是條件概率應用場景:
即,在給定前面一個詞的前提下,出現某個詞的概率與他們構成的雙字母組的概率一致,換言之,兩個詞同時出現的概率被出現前一個詞的概率除。
Gappy bigrams或稱skipping bigrams是允許有跳空的詞對組(也許想避免把詞連接起來,或者想允許某種模擬的依賴,如依賴語法)。
Head word bigrams是具有明確依賴關係的gappy bigrams。
應用
英語裡雙字母組的出現頻率
據小英語語料庫的統計結果,最常見的字母雙字母的頻率是:[2]
th 1.52% en 0.55% ng 0.18% he 1.28% ed 0.53% of 0.16% in 0.94% to 0.52% al 0.09% er 0.94% it 0.50% de 0.09% an 0.82% ou 0.50% se 0.08% re 0.68% ea 0.47% le 0.08% nd 0.63% hi 0.46% sa 0.06% at 0.59% is 0.46% si 0.05% on 0.57% or 0.43% ar 0.04% nt 0.56% ti 0.34% ve 0.04% ha 0.56% as 0.33% ra 0.04% es 0.56% te 0.27% ld 0.02% st 0.55% et 0.19% ur 0.02%
可以獲得從更大語料庫中提取的完整雙字母頻率。[3]
參考文獻
參見
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.