Loading AI tools
grafische Darstellung der Häufigkeitsverteilung kardinal skalierter Merkmale Aus Wikipedia, der freien Enzyklopädie
Ein Histogramm ist eine grafische Darstellung der Häufigkeitsverteilung kardinal skalierter Merkmale. Es erfordert die Einteilung der Daten in Klassen (englisch bins), die eine konstante oder variable Breite haben können. Es werden direkt nebeneinanderliegende Rechtecke von der Breite der jeweiligen Klasse gezeichnet, deren Flächeninhalte die (relativen oder absoluten) Klassenhäufigkeiten darstellen.[1][2][3] Die Höhe jedes Rechtecks stellt dann die (relative oder absolute) Häufigkeitsdichte dar, also die (relative oder absolute) Häufigkeit dividiert durch die Breite der entsprechenden Klasse.[4]
Anwendung finden Histogramme in der beschreibenden Statistik und in der Bildverarbeitung. Man verwendet Histogramme beispielsweise dann,
In der physikalischen Forschung oder angewandten Gebieten (z. B. Analytik) werden gemessene Spektren als Histogramme dargestellt, siehe z. B. Vielkanalanalysator.
Folgende Schritte sind bei der Konstruktion eines Histogramms nötig:
Zur Konstruktion eines Histogramms wird der Wertebereich der Stichprobe in k aneinandergrenzende Intervalle geteilt, die Klassen.[5] Dabei ist darauf zu achten, dass die Randklassen nicht offen sind. Das heißt, die erste und die letzte Klasse müssen eine untere bzw. obere Grenze besitzen.[6][1] Die Klassen müssen nicht gleich breit sein. Allerdings vereinfachen zumindest im Mittelbereich gleich große Klassen die Interpretation. Über jede Klasse wird dann ein Rechteck errichtet, dessen Fläche proportional zur jeweiligen Klassenhäufigkeit ist. Im Histogramm entsprechen diese Klassen der Breite der einzelnen Rechtecke.
Bei der Erstellung eines Histogramms gibt es zwei Vorgehensweisen: Die Klassenhäufigkeit spiegelt entweder einen absoluten oder einen relativen Wert wider. Der absolute Wert entspricht der Anzahl an Werten, die zu einer Klasse gehören. Der relative Wert hingegen drückt aus, wie viel Prozent der Werte einer Klasse angehören. Je nach Anwendungsfall kann sowohl das Arbeiten mit absoluten als auch mit relativen Werten Vorteile mit sich bringen. Im Histogramm entspricht die Klassenhäufigkeit dem Flächeninhalt der Rechtecke.
Da die Fläche des j-ten Rechtecks gleich der Klassenhäufigkeit ist, errechnet sich die Höhe des Rechtecks, die sogenannte Häufigkeitsdichte , als Quotient der Klassenhäufigkeit durch die Klassenbreite .[7] Dies wird unmittelbar klar, wenn man sich überlegt, dass die Fläche eines Rechtecks das Produkt aus Breite (Klassenbreite) und Höhe (Häufigkeitsdichte) ist. Die Klasse mit der größten Häufigkeitsdichte wird Modalklasse genannt.[8] Sind die Klassen gleich breit, so sind Häufigkeitsdichte und absolute bzw. relative Häufigkeiten proportional zueinander. Die Höhen der Rechtecke sind in diesem Fall vergleichbar und (unter Beachtung der Klassenbreite als Proportionalitätsfaktor) als Häufigkeit interpretierbar.
Oft werden die ermittelten Klassenhäufigkeiten beim Wiederholen der Datenerfassung streuen. So stellt sich, beispielsweise bei einer Wahlprognose, die Frage nach der Präzision der erhobenen Zahlen. Die zu erwartende Schwankungsbreite der Klassenhäufigkeit strebt bei unbegrenzt wachsender Anzahl der Klassen gegen
Um ein Histogramm zeichnen zu können, muss eine genügend große Anzahl an Messwerten einen sinnvollen Verlauf ergeben. Eine falsche Einteilung der Klassen kann zu einer Fehlinterpretation des Histogramms führen. Für die Festlegung der Anzahl der Klassen bzw. Rechtecke existieren verschiedene Faustregeln:
Anzahl der Messungen | Balkenzahl |
---|---|
<50 | 5 bis 7 |
50 bis 100 | 6 bis 10 |
100 bis 250 | 7 bis 12 |
>250 | 10 bis 20 |
Gegebenenfalls kann man die Anzahl der Balken auch nach der Sturges-Regel[9] berechnen:
Die Sturges-Regel hat den Nachteil, dass sie zum einen die Streuung nicht berücksichtigt. Zum anderen wählt sie die Klassenzahl zu klein für selbst im Fall einer (idealen) normalverteilten wahren Dichte.[10]
Alternativ kann die Klassenbreite mit der Regel nach Scott[11]
Die Regel nach Scott ist so nur für normalverteilte Daten definiert. Für andere Fälle führte Scott Korrekturfaktoren in Abhängigkeit von Schiefe und Exzess ein.
Nach Freedman und Diaconis[12]
Dabei sind die Standardabweichung, die Anzahl der Messungen und der Interquartilsabstand.
Ein Histogramm ist eine flächenproportionale Darstellung der vorliegenden Häufigkeiten. Die Fläche eines Rechtecks entspricht , wobei die relative Klassenhäufigkeit der Klasse und ein Proportionalitätsfaktor ist.
Ist gleich dem Stichprobenumfang, das heißt , so ist die Fläche eines jeden Rechtecks gleich der absoluten Klassenhäufigkeit. Das Histogramm wird in diesem Fall, in dem die Summe der Flächeninhalte der Rechtecke dem Stichprobenumfang entspricht, absolut genannt.[13] Werden zur Konstruktion des Histogramms exakt die relativen Klassenhäufigkeiten verwendet (), wird das Histogramm als relativ oder normiert bezeichnet. Da die Flächeninhalte der Rechtecke nun den relativen Klassenhäufigkeiten entsprechen, summieren sich die Flächeninhalte in diesem Fall zu 1.[13]
Bei einem Histogramm grenzen die Rechtecke im Gegensatz zum Säulendiagramm direkt aneinander, das heißt, es existieren keine Abstände zwischen ihnen. Denn die Breite der Rechtecke entspricht den gebildeten Intervallen (Klassen), die ebenfalls direkt aneinandergrenzen.
Im Unterschied zum Säulendiagramm muss bei einem Histogramm die x-Achse immer eine Skala sein, deren Werte geordnet und gleichabständig sind.
Drei Kennzeichen eines Histogramms können zur Beurteilung der dargestellten Verteilung dienen:
Es liegen für 32 europäische Länder als Indikator für den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor. Die Werte werden wie folgt in Klassen eingeteilt:
Klasse j | Zahl der PKW pro 1000 | Anzahl der Länder (absolute Klassenhäufigkeit) nj | Klassenbreite dj | Rechteckhöhe (Häufigkeitsdichte) hj = nj/dj |
1 | über 0 – bis 200 | 5 | 200 – 0 = 200 | 0,025 |
2 | über 200 bis 300 | 6 | 100 | 0,06 |
3 | über 300 bis 400 | 6 | 100 | 0,06 |
4 | über 400 bis 500 | 9 | 100 | 0,09 |
5 | über 500 bis 700 | 6 | 200 | 0,03 |
Summe Σ | 32 |
Mit Hilfe der Tabelle erhält man das folgende Histogramm:
Auf der Abszisse werden die Klassengrenzen und Klassenmittel abgetragen. In der Regel gibt man bei einem Histogramm die Ordinate nicht an, weil sonst die Gefahr besteht, die Höhe eines Rechtecks, anstatt seiner Fläche, als Häufigkeit zu interpretieren. Sind dagegen alle Klassen gleich breit, kann man für die Höhe der Rechtecke die Klassenhäufigkeit nj verwenden und diese auf der Ordinate abtragen.
Das linke Bild zeigt vier Histogramme für den gleichen Datensatz. Zwar sind die Klassenbreiten in jedem Histogramm gleich 2,0, jedoch verschiebt sich der Beginn der ersten Klasse (-6.0, -5.5, -5.0 und -4.5). Obwohl jeweils der gleiche Datensatz benutzt wurde, kommen doch unterschiedliche Histogramme heraus.
Neben dem Problem der Klassenanzahl bzw. Klassenbreite spielt also auch die Wahl der (linken) Klassengrenzen eine Rolle. David Scott hat daher das Average-Shifted-Histogramm vorgeschlagen.[14]
Im rechten Bild wurden die vier Histogramme überlagert und dann für jeden Wert die Histogrammhöhen gemittelt. Dies ergibt das Average-Shifted-Histogramm. Üblicherweise werden deutlich mehr als vier Histogramme überlagert und gemittelt.
Das Average-Shifted-Histogramm löst das Problem der Wahl der (linken) Klassengrenzen, jedoch nicht das Problem der Wahl der optimalen Klassenbreiten.
Einzuordnen ist das Average-Shifted-Histogramm zwischen dem Histogramm und der Kerndichteschätzung.
In der digitalen Bildverarbeitung versteht man unter einem Histogramm die statistische Häufigkeit der Grauwerte bzw. der Farbwerte in einem Bild. Das Histogramm eines Bildes erlaubt eine Aussage über die vorkommenden Grau- bzw. Farbwerte und über Kontrastumfang und Helligkeit des Bildes. In einem farbigen Bild kann entweder ein Histogramm über alle möglichen Farben oder Histogramme über die einzelnen Farbkanäle erstellt werden. Letzteres ist meist sinnvoller, da die meisten Verfahren auf Grauwertbildern basieren und so die sofortige Weiterverarbeitung möglich ist. Die Anzahl der Farbkanäle in einem Bild ist abhängig vom Modus, das heißt pro Farbauszug gibt es einen Kanal. Daher haben CMYK-Bilder vier Farbkanäle, RGB-Farbbilder nur drei.
Ein Histogramm visualisiert die Verteilung der Helligkeitswerte eines Bildes. Über einer Achse, die den Wertebereich der Farbwerte darstellt, sind als Balken die einzelnen Häufigkeiten des Vorkommens der Farbwerte aufgetragen. Je höher der Balken über einem Farbwert ist, desto häufiger kommt dieser Farbwert im Bild vor.[15]
Histogramme findet man häufig im Bereich der digitalen Fotografie. Gut ausgestattete digitale Fotoapparate zeigen auf dem Display während der Motivsuche als Hilfe für ein ausgewogeneres Bild in Echtzeit oder für bereits gespeicherte Aufnahmen ein Histogramm an. Das Betrachten eines Histogramms erlaubt es dem Fotografen, das Ergebnis oder das geplante Foto genauer zu kontrollieren, als es das Kameradisplay erlaubt. Zum Beispiel kann man typische Fehler wie Unter- und Überbelichtung erkennen und diese durch entsprechende Belichtungskorrektur beheben. Da die Helligkeit und vor allem der Kontrastumfang des Bildes bei der späteren Bearbeitung und Verwertung eine große Rolle spielen, lohnt es sich beim Fotografieren, auf die Histogrammanzeige zu achten.
Eine klassische Anwendung von Histogrammen in der Bildverarbeitung liegt in der Egalisierung (Äqualisierung, englisch equalizing), bei der das Histogramm mit einer Egalisierungsfunktion transformiert wird. Dadurch kann eine bessere Verteilung der Farbgebung erreicht werden, die über eine bloße Kontrastverstärkung hinausgeht.
Bei Low-key-Aufnahmen konzentrieren sich die Details in den niedrigen Tonwerten. Der Ausschlag ist demnach im unteren Bereich am stärksten. (Es liegen viele Pixel mit niedrigen Tonwerten vor.)
Für High-key-Aufnahmen gilt das Gegenteil, also viele Pixel mit hohen Tonwerten und kaum ein Ausschlag in den niedrigen Tonwerten.
Bei überbelichteten Aufnahmen „schmiegt“ sich die Wahrscheinlichkeitskurve an der rechten (hellen) Seite an und das Maximum wird möglicherweise gar nicht erreicht. Es werden also nicht alle hellen Details wiedergegeben, da ein bestimmter Helligkeitsbereich abgeschnitten ist und der darunterliegende als weiß definiert wird.
Wohl erstmals tauchte ein Histogramm 1786 in der Arbeit The Commercial and Political Atlas des um 1800 lebenden schottischen Ingenieurs und Volkswirts William Playfair auf, der zuvor auch das Balken- und Tortendiagramm einführte.[16] Im Jahr 1833 verwendete auch der Franzose André-Michel Guerry Histogramme zur Visualisierung von Daten.[17] Weiterentwickelt wurde das Histogramm durch den belgischen Statistiker und Sozialwissenschaftler Adolphe Quetelet um 1846. Der Begriff „histogram“ (historical diagram)[18] wurde jedoch erstmals vom englischen Mathematiker Karl Pearson im Jahr 1891 in einer Vorlesungsreihe genutzt und schließlich 1895 in seiner heutigen Bedeutung eingeführt.[19][20][21]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.