Закон Хипса

Из Википедии, свободной энциклопедии

Закон Хипса

Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой

,
Thumb
Типичный график, иллюстрирующий закон Хипса. По оси x — размер текста, по оси y — число уникальных слов в тексте. Сравните значения на двух осях

где VR — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов K обычно лежит между 10 и 100, а β между 0,4 и 0,6.

Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]

Примечания

Ссылки

Wikiwand - on

Seamless Wikipedia browsing. On steroids.