Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой
,
где VR — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстовK обычно лежит между 10 и 100, а β между 0,4 и 0,6.
Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]
Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology, 58 (5): 702, doi:10.1002/asi.20524.
Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206—208).
Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton.
Kornai, Andras (1999), "Zipf's law outside the middle range", in Rogers, James (ed.), Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, pp.347—356.
Milička, Jiří (2009), "Type-token & Hapax-token Relation: A Combinatorial Model", Glottotheory. International Journal of Theoretical Linguistics, 1 (2): 99—110, doi:10.1515/glot-2009-0009.
van Leijenhorst, D. C; van der Weide, Th. P. (2005), "A formal derivation of Heaps' Law", Information Sciences, 170 (2—4): 263—272, doi:10.1016/j.ins.2004.03.006.
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.