Remove ads
statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten vorkommt Aus Wikipedia, der freien Enzyklopädie
Die Buchstabenhäufigkeit (Graphemhäufigkeit) ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen[1] in Betracht zu ziehen sind. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar.[2] Für manche Zwecke ist es auch interessant, wie häufig ein Buchstabe am Wortanfang oder am Wortende vorkommt.
Die Buchstabenhäufigkeit wird in der Entschlüsselung von Substitutionsverfahren in der Kryptoanalyse sowie in der Datenkompression und -kodierung benutzt. Bei einfachen Verschlüsselungsverfahren wie bei der Cäsarchiffre kann ein Geheimtext alleine durch Häufigkeitsanalyse entschlüsselt werden. Dabei werden die Häufigkeiten der einzelnen Zeichen im Geheimtext festgestellt und dann mit der Häufigkeit der Zeichen in einem Klartext der vermuteten Sprache verglichen. Nun werden die Buchstaben des Geheimtextes durch die normalen Buchstaben gleicher Häufigkeit ersetzt. Der häufigste Buchstabe des Geheimtextes entspricht dann zum Beispiel dem Klartextbuchstaben e. Diese Methode ist offensichtlich für längere zu entschlüsselnde Texte besonders gut geeignet, weil die statistische Abweichung der gefundenen Buchstabenhäufigkeit von der zu erwartenden Häufigkeit geringer wird.
Für den Maschinenschreibunterricht ist es wichtig, dass die Lehrkraft über die Buchstabenhäufigkeit in einer Sprache gut informiert ist und die Unterrichtsinhalte entsprechend darauf abgestimmt werden. Häufige Buchstaben wie das E oder das I müssen hinreichend trainiert werden, um eine möglichst hohe Anschlagszahl und eine gute Schreibsicherheit zu erzielen. Bei der Erstellung ergonomischer Tastaturbelegungen spielt die Buchstabenhäufigkeit ebenfalls eine große Rolle. Hersteller von Buchstabenspielen wie Boggle oder Scrabble berücksichtigen bei den nationalen Varianten ebenfalls die Häufigkeit und, falls vorhanden, auch die Wertigkeit der Buchstaben.
Eine der ersten Anwendungen war das Morse-Alphabet, das für häufige Zeichen kurze Codes verwendet (zum Beispiel E = ·); für selten gebrauchte Zeichen dagegen längere Codes (zum Beispiel Q = – – · –).
Die Weiterführung der Buchstabenhäufigkeit ist die Häufigkeit von Buchstabenpaaren und -tripeln und die Worthäufigkeit sowie von Schrifteinheiten, die für eine systematische Lauteinheit stehen (Grapheme für Phoneme). Befasst man sich statt mit der geschriebenen einmal mit der gesprochenen Sprache, so kann man ganz entsprechend auch Erhebungen zur Laut- oder Phonemhäufigkeit durchführen.
Aus der folgenden Tabelle lässt sich rechnerisch ableiten, dass mit den fünf häufigsten Buchstaben rund die Hälfte, und mit den zehn häufigsten Buchstaben dreiviertel der Buchstabenhäufigkeit in deutschsprachigen Texten abgedeckt ist. Die Umlaute ä, ö und ü wurden wie ae, oe und ue gezählt, ß als eigenständiges Zeichen.[3]
Platz | Buchstabe | Relative Häufigkeit |
---|---|---|
1. | E | 17,40 % |
2. | N | 9,78 % |
3. | I | 7,55 % |
4. | S | 7,27 % |
5. | R | 7,00 % |
6. | A | 6,51 % |
7. | T | 6,15 % |
8. | D | 5,08 % |
9. | H | 4,76 % |
10. | U | 4,35 % |
11. | L | 3,44 % |
12. | C | 3,06 % |
13. | G | 3,01 % |
14. | M | 2,53 % |
15. | O | 2,51 % |
16. | B | 1,89 % |
17. | W | 1,89 % |
18. | F | 1,66 % |
19. | K | 1,21 % |
20. | Z | 1,13 % |
21. | P | 0,79 % |
22. | V | 0,67 % |
23. | ẞ | 0,31 % |
24. | J | 0,27 % |
25. | Y | 0,04 % |
26. | X | 0,03 % |
27. | Q | 0,02 % |
Bei einer Gleichverteilung der 27 Buchstaben betrüge die relative Häufigkeit jeweils 3,704 %.
Zum Vergleich eine Datei, die auf 99.586 Buchstaben eines gemischten Briefkorpus einer Person (Korrespondenz mit Ämtern, Freunden, Kollegen, Rundfunkanstalten, Verlagen…; immer nur der laufende Text, also ohne Briefkopf, Anrede und Grußformel; Briefe aus den Jahren 1996–2004) beruht. Im Unterschied zur vorigen Übersicht sind die Umlautbuchstaben <ä>, <ö> und <ü> je für sich erhoben.[4]
Platz | Buchstabe | Absolute Häufigkeit | Relative Häufigkeit |
---|---|---|---|
1. | E | 16.040 | 16,11 % |
2. | N | 10.288 | 10,33 % |
3. | I | 9.011 | 9,05 % |
4. | R | 6.693 | 6,72 % |
5. | T | 6.312 | 6,34 % |
6. | S | 6.203 | 6,23 % |
7. | A | 5.577 | 5,60 % |
8. | H | 5.177 | 5,20 % |
9. | D | 4.156 | 4,17 % |
10. | U | 3.680 | 3,70 % |
11. | C | 3.384 | 3,40 % |
12. | L | 3.226 | 3,24 % |
13. | G | 2.924 | 2,94 % |
14. | M | 2.784 | 2,80 % |
15. | O | 2.312 | 2,32 % |
16. | B | 2.176 | 2,19 % |
17. | F | 1.701 | 1,71 % |
18. | W | 1.383 | 1,39 % |
19. | Z | 1.351 | 1,36 % |
20. | K | 1.329 | 1,33 % |
21. | V | 912 | 0,92 % |
22. | P | 841 | 0,84 % |
23. | Ü | 636 | 0,64 % |
24. | Ä | 511 | 0,51 % |
25. | Ö | 363 | 0,36 % |
26. | ẞ | 189 | 0,19 % |
27. | J | 186 | 0,19 % |
28. | X | 112 | 0,11 % |
29. | Q | 73 | 0,07 % |
30. | Y | 56 | 0,06 % |
Das Institut für Deutsche Sprache in Mannheim bietet auf seinen Seiten diverse Zeichen- und Buchstabenhäufigkeitslisten zum Download an.[5] Den Statistiken liegt eine Textstichprobe von knapp 180 Milliarden Zeichen aus dem Deutschen Referenzkorpus zugrunde (Stand 2018).
Eine Übersicht über die Buchstabenhäufigkeit in Form eines Balkendiagramms bietet Duden auf der Grundlage des Duden-Korpus, einer Volltextsammlung mit über 2 Milliarden Wortformen; auch in dieser Übersicht werden die Umlautbuchstaben je für sich aufgelistet.[6] Die Graphik wurde in der 27. Auflage des Rechtschreib-Duden überarbeitet, jetzt auf der Grundlage des Duden-Korpus mit inzwischen 4 Milliarden Wortformen (Stand Frühjahr 2017).[7]
Die Häufigkeit von Anfangsbuchstaben gibt an, wie oft ein Buchstabe als erster Buchstabe eines Wortes vorkommt. Sie hängt relativ stark von der Textart ab. Für Fließtext sind die fünf häufigsten Anfangsbuchstaben:[8]
Für Lexika ergibt sich eine andere Verteilung. Die Buchstaben D, E, I und W kommen im Vergleich zum Fließtext wesentlich seltener am Wortanfang vor, S kommt mit deutlichem Abstand am häufigsten vor:[8]
Die Häufigkeit von Endbuchstaben gibt an, wie häufig ein Buchstabe als letzter Buchstabe eines Wortes vorkommt. (Als Beispiel-Textbasis wurde der Roman Effi Briest von Theodor Fontane ausgewertet, wobei ß stets als ss gezählt wurde. Die Textbasis umfasst alle 36 Kapitel dieses Werks mit insgesamt 572.849 Zeichen.)
Buchstabe | Deutsch | Englisch[9] | Französisch[10] | Spanisch[11] | Esperanto[12] | Italienisch[13] | Schwedisch[14] | Polnisch[15] |
---|---|---|---|---|---|---|---|---|
a | % | 6,51% | 8,167% | 7,63612,53 % | 12,12 % | 11,74 % | 9,3 % | 8,0 % |
b | % | 1,89% | 1,492% | 0,901% | 1,42% | 0,98% | 0,921,3 % | 1,3 % |
c | % | 3,06% | 2,782% | 3,260% | 4,68% | 0,78% | 4,51,3 % | 3,8 % |
d | % | 5,08% | 4,253% | 3,669% | 5,86% | 3,04% | 3,734,5 % | 3,0 % |
e | 17,40 % | 12,702 % | 14,715 % | 13,68 % | % | 8,9911,79 % | 9,9 % | 6,9 % |
f | % | 1,66% | 2,228% | 1,066% | 0,69% | 1,03% | 0,952,0 % | 0,1 % |
g | % | 3,01% | 2,015% | 0,866% | 1,01% | 1,17% | 1,643,3 % | 1,0 % |
h | % | 4,76% | 6,094% | 0,737% | 0,70% | 0,38% | 1,542,1 % | 1,0 % |
i | % | 7,55% | 6,966% | 7,529% | 6,2510,01 % | 11,28 % | 5,1 % | 7,0 % |
j | % | 0,27% | 0,153% | 0,545% | 0,44% | 3,50% | 0,000,7 % | 1,9 % |
k | % | 1,21% | 0,772% | 0,049% | 0,00% | 4,16% | 0,003,2 % | 2,7 % |
l | % | 3,44% | 4,025% | 5,456% | 4,97% | 6,14% | 6,515,2 % | 3,1 % |
m | % | 2,53% | 2,406% | 2,968% | 3,15% | 2,99% | 2,513,5 % | 2,4 % |
n | % | 9,78% | 6,749% | 7,095% | 6,71% | 7,96% | 6,888,8 % | 4,7 % |
o | % | 2,51% | 7,507% | 5,378% | 8,68% | 8,78% | 9,834,1 % | 7,1 % |
p | % | 0,79% | 1,929% | 3,021% | 2,51% | 2,74% | 3,051,7 % | 2,4 % |
q | % | 0,02% | 0,095% | 1,362% | 0,88% | 0,00% | 0,510,007 % | 0,00 % |
r | % | 7,00% | 5,987% | 6,553% | 6,87% | 5,91% | 6,378,3 % | 3,5 % |
s | % | 7,27% | 6,327% | 7,948% | 7,98% | 6,09% | 4,986,3 % | 3,8 % |
t | % | 6,15% | 9,056% | 7,244% | 4,63% | 5,27% | 5,628,7 % | 2,4 % |
u | % | 4,35% | 2,758% | 6,311% | 3,93% | 3,18% | 3,011,8 % | 1,8 % |
v | % | 0,67% | 0,978% | 1,628% | 0,90% | 1,90% | 2,102,4 % | 0,00 % |
w | % | 1,89% | 2,360% | 0,114% | 0,02% | 0,00% | 0,000,03 % | 3,6 % |
x | % | 0,03% | 0,150% | 0,387% | 0,22% | 0,00% | 0,000,1 % | 0,00 % |
y | % | 0,04% | 1,974% | 0,308% | 0,90% | 0,00% | 0,000,6 % | 3,2 % |
z | % | 1,13% | 0,074% | 0,136% | 0,52% | 0,50% | 0,490,02 % | 5,1 % |
œ | % | 0,00% | 0,00% | 0,018% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
ß | % | 0,31% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
à | % | 0,00% | 0,00% | 0,486% | 0,00% | 0,00siehe a | 0,00 % | 0,00 % |
ą | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe a |
ç | % | 0,00% | 0,00% | 0,085% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
ĉ | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,66% | 0,000,00 % | 0,00 % |
ć | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe c |
è | % | 0,00% | 0,00% | 0,271% | 0,00% | 0,00siehe e | 0,00 % | 0,00 % |
é | % | 0,01% | 0,00% | 1,904% | 0,00% | 0,00siehe e | 0,00 % | 0,00 % |
ê | % | 0,00% | 0,00% | 0,225% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
ë | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
ę | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe e |
ĝ | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,69% | 0,000,00 % | 0,00 % |
ĥ | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,02% | 0,000,00 % | 0,00 % |
î | % | 0,00% | 0,00% | 0,045% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
ì | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00siehe i | 0,00 % | 0,00 % |
ï | % | 0,00% | 0,01% | 0,005% | 0,00% | 0,00% | 0,000,00 % | 0,00 % |
ĵ | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,12% | 0,000,00 % | 0,00 % |
ł | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe l |
ń | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe n |
ó | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe o |
ò | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00siehe o | 0,00 % | 0,00 % |
ŝ | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,38% | 0,000,00 % | 0,00 % |
ś | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe s |
ù | % | 0,00% | 0,00% | 0,058% | 0,00% | 0,00siehe u | 0,00 % | 0,00 % |
ŭ | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,52% | 0,000,00 % | 0,00 % |
ź | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | siehe z |
ż | % | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,000,00 % | 0,7 % |
Besonders bemerkenswert in der Tabelle ist, dass im Deutschen der Buchstabe E deutlich häufiger und der Buchstabe O deutlich seltener angewendet werden als in romanischen und slawischen Sprachen.
Die Tabelle stellt nur die Häufigkeiten von Buchstaben in Texten/Korpora von Sprachen dar, für die die lateinische Schrift verwendet wird. Zur Buchstabenhäufigkeit in Sprachen mit der kyrillischen Schrift kann auf die Darstellung von Kempgen (1995) zum Russischen[16] und die Untersuchung von Grzybek & Kehlich (2005) zum Ukrainischen verwiesen werden.[17]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.