Prawo Zipfa

Rozkład Zipfa
	Funkcja rozkładu prawdopodobieństwa; ; Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
	Dystrybuanta; ; Dystrybuanta dla N=10
Parametry	(liczba rzeczywista);
Nośnik
Funkcja rozkładu prawdopodobieństwa
Dystrybuanta
Wartość oczekiwana (średnia)
Moda
Entropia
Funkcja tworząca momenty
Funkcja charakterystyczna
Odkrywca	George Kingsley Zipf (1935, 1949)

Prawo Zipfa – prawo empiryczne głoszące, że wiele rodzajów danych tworzonych przez ludzi lub odnoszących się do ich zachowań cechuje charakterystyczny rozkład wartości, w którym dystrybucja częstotliwości występowania poszczególnych wartości jest odwrotnie proporcjonalna do ich rangi statystycznej^[1].

Szybkie fakty Parametry, Nośnik ...

Zamknij

Pod koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista George Kingsley Zipf^[2].

Pierwotnie prawo to zostało sformułowane dla języków naturalnych, w których zaobserwowano, że gdy na podstawie ich korpusów językowych ustali się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga (numer porządkowy) wyrazu jest odwrotnie proporcjonalna do częstotliwości, zatem iloczyn częstotliwości i rangi powinien być wielkością stałą^[2]. Przykładowo: w korpusie Browna(inne języki) dla języka angielskiego w wersji amerykańskiej, najczęściej występujące słowo „the” stanowi aż 7% wszystkich słów, drugie w kolejności „of” stanowi 3,5%, trzecie „a” 1,75%, zaś pierwsze 135 słów składa się na 50% objętości całego korpusu^[3].

Matematycznie można to wyrazić w formie równania:

r\times f={\mbox{constans}},

gdzie $r$ jest to ranga wyrazu w tekście lub grupie tekstów, a $f$ częstotliwość jego występowania^[2].

W odpowiednio obszernych korpusach językowych wartość stałej jest charakterystyczna dla danego języka, a prawo jest spełnione niemal doskonale dla pierwszych najczęściej występujących 200–300 słów. W poszczególnych tekstach zależy ona natomiast od stylu i tematyki. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Im bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem^[4].

Podobne zależności są też obserwowane dla częstości występowania wyrażeń matematycznych w tekstach technicznych^[5], częstości występowania wysokości nut w zapisach utworów muzycznych^[6], a nawet danych nie odnoszących się bezpośrednio do wytworów ludzi, ale związanych z ich aktywnością takich jak ranking wielkości miast, liczby osób zatrudnionych w przedsiębiorstwach, rozkładu wysokości dochodów osobistych, czy popularności stacji telewizyjnych^[7].

[1]
DawidD. Powers DawidD., Applications and explanations of Zipf’s law, aclweb.org, 1988 [dostęp 2021-05-30].
[2]
Ziomek 1990 ↓, s. 145.
[3]
AmanA. Ullah AmanA., David E.A.D.E.A. Giles David E.A.D.E.A., Handbook of Empirical Economics and Finance, CRC Press, 19 kwietnia 2016, ISBN 978-1-4200-7036-1 [dostęp 2021-05-30] (ang.).
[4]
Ziomek 1990 ↓, s. 146.
[5]
AndréA. Greiner-Petter AndréA. i inni, Discovering Mathematical Objects of Interest – A Study of Mathematical Notations, „Proceedings of The Web Conference 2020”, WWW '20, Taipei, Taiwan: Association for Computing Machinery, 2020, s. 1445–1456, DOI: 10.1145/3366423.3380218, ISBN 978-1-4503-7023-3 [dostęp 2021-05-30].
[6]
Damian H.D.H. Zanette Damian H.D.H., Zipf’s law and the creation of musical context, „arXiv:cs”, 7 czerwca 2004, arXiv:cs/0406015 [dostęp 2021-05-30].
[7]
Steven T.S.T. Piantadosi Steven T.S.T., Zipf’s word frequency law in natural language: A critical review and future directions, „Psychonomic bulletin & review”, 21 (5), 2014, s. 1112–1130, DOI: 10.3758/s13423-014-0585-6, ISSN 1069-9384, PMID: 24664880, PMCID: PMC4176592 [dostęp 2021-05-30].

Jerzy Ziomek: Retoryka opisowa. Wrocław, Warszawa, Kraków: Zakład Narodowy im. Ossolińskich, 1990. ISBN 83-04-03544-8.

[1] [1]
DawidD. Powers DawidD., Applications and explanations of Zipf’s law, aclweb.org, 1988 [dostęp 2021-05-30].

[CITEREFZiomek1990145-2] [2]
Ziomek 1990 ↓, s. 145.

[3] [3]
AmanA. Ullah AmanA., David E.A.D.E.A. Giles David E.A.D.E.A., Handbook of Empirical Economics and Finance, CRC Press, 19 kwietnia 2016, ISBN 978-1-4200-7036-1 [dostęp 2021-05-30] (ang.).

[CITEREFZiomek1990146-4] [4]
Ziomek 1990 ↓, s. 146.

[5] [5]
AndréA. Greiner-Petter AndréA. i inni, Discovering Mathematical Objects of Interest – A Study of Mathematical Notations, „Proceedings of The Web Conference 2020”, WWW '20, Taipei, Taiwan: Association for Computing Machinery, 2020, s. 1445–1456, DOI: 10.1145/3366423.3380218, ISBN 978-1-4503-7023-3 [dostęp 2021-05-30].

[6] [6]
Damian H.D.H. Zanette Damian H.D.H., Zipf’s law and the creation of musical context, „arXiv:cs”, 7 czerwca 2004, arXiv:cs/0406015 [dostęp 2021-05-30].

[7] [7]
Steven T.S.T. Piantadosi Steven T.S.T., Zipf’s word frequency law in natural language: A critical review and future directions, „Psychonomic bulletin & review”, 21 (5), 2014, s. 1112–1130, DOI: 10.3758/s13423-014-0585-6, ISSN 1069-9384, PMID: 24664880, PMCID: PMC4176592 [dostęp 2021-05-30].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Wikiwand in your browser!

Prawo Zipfa

Wikiwand in your browser!

Prawo Zipfa dla języków naturalnych

Inne przykłady działania prawa

Zobacz też

Przypisy

Bibliografia

Funkcja rozkładu prawdopodobieństwa Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Dystrybuanta Dystrybuanta dla N=10
Parametry	$s>0$ (liczba rzeczywista) $N\in \{1,2,3\ldots \}$
Nośnik	$k\in \{1,2,\dots ,N\}$
Funkcja rozkładu prawdopodobieństwa	${\frac {1/k^{s}}{H_{N,s}}}$
Dystrybuanta	${\frac {H_{k,s}}{H_{N,s}}}$
Wartość oczekiwana (średnia)	${\frac {H_{N,s-1}}{H_{N,s}}}$
Moda	$1$
Entropia	${\frac {s}{H_{N,s}}}\sum _{k=1}^{N}{\frac {\ln(k)}{k^{s}}}+\ln(H_{N,s})$
Funkcja tworząca momenty	${\frac {1}{H_{N,s}}}\sum _{n=1}^{N}{\frac {e^{nt}}{n^{s}}}$
Funkcja charakterystyczna	${\frac {1}{H_{N,s}}}\sum _{n=1}^{N}{\frac {e^{int}}{n^{s}}}$
Odkrywca	George Kingsley Zipf (1935, 1949)