Alphafehler-Kumulierung

Die Alphafehler-Kumulierung, häufig auch α-Fehler-Inflation genannt, bezeichnet in der Statistik die Erhöhung der globalen Alpha-Fehler-Wahrscheinlichkeit (Fehlerwahrscheinlichkeit 1. Art) durch multiples Testen in derselben Stichprobe. Je mehr richtige Hypothesen man auf einem Datensatz mit einem fixierten Signifikanzniveau testet, umso größer wird die Wahrscheinlichkeit, dass mindestens eine dieser Hypothesen (fälschlich) abgelehnt wird.

Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Oft wird in einer Studie nicht nur eine Nullhypothese festgelegt, sondern man will mehrere Fragen mittels der gewonnenen Daten beantworten. Dies können weitere Nullhypothesen, aber auch Konfidenzintervalle oder Schätzwerte sein.

Unter multiplem Testen versteht man die simultane Durchführung mehrerer Tests. Bei einem einfachen Testproblem wird eine Nullhypothese $H_{0}$ und eine Gegenhypothese $H_{1}$ betrachtet. Im Fall des multiplen Testens werden mehrere Nullhypothesen $H_{1},H_{2},\ldots ,H_{k}$ mit zugehörigen Gegenhypothesen $K_{1},K_{2},\ldots ,K_{k}$ untersucht.^[1]^[2] Multiples Testen wirft im Vergleich zur Durchführung eines einzelnen Tests mehrere Aufgaben auf:

Die Konzepte des Fehlers 1. Art (auch α-Fehler genannt) und der Fehlerwahrscheinlichkeit 1. Art müssen auf multiple Tests verallgemeinert werden. Dies erfolgt durch die Konzepte des multiplen Fehlers 1. Art und der multiplen Fehlerwahrscheinlichkeit 1. Art.
Die betrachtete Familie der Hypothesen und die Tests sollte bestimmte Konsistenzbedingungen erfüllen, z. B. Kohärenz, Konsonanz und Abgeschlossenheit.
Die vorgegebenen Signifikanzniveaus müssen für mehrere Tests aufeinander abgestimmt werden. Im Zusammenhang mit dieser Fragestellung wird die Alphafehler-Kumulierung relevant.

Die sogenannte Inflation des α-Fehlers oder Alphafehler-Kumulierung beim multiplen Testen soll anhand eines Beispiels illustriert werden: Betrachtet werden $k$ unabhängige Tests mit einfacher Nullhypothese, für die jeweils das geforderte Signifikanzniveau $\alpha _{\text{lokal}}$ ausgeschöpft wird, so dass jeweils die Fehlerwahrscheinlichkeit 1. Art mit dem Signifikanzniveau zusammenfällt. Wenn alle Nullhypothese wahr sind, ist die Wahrscheinlichkeit, dass mindestens eine der Nullhypothesen ablehnt wird, d. h. die multiple Fehlerwahrscheinlichkeit 1. Art $1-(1-\alpha _{\text{lokal}})^{k}\;.$ Die Berechnung erfolgt mit Hilfe der entsprechenden Gegenwahrscheinlichkeit und der Multiplikation von Wahrscheinlichkeiten bei stochastischer Unabhängigkeit. Die multiple Fehlerwahrscheinlichkeit 1. Art nimmt mit zunehmender Zahl von Tests zu. Für wachsendes $k$ wächst die multiple Fehlerwahrscheinlichkeit 1. Art und nähert sich für $k\to \infty$ der Zahl 1.

Hier fehlt eine Grafik, die leider im Moment aus technischen Gründen nicht angezeigt werden kann. Wir arbeiten daran!

Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, bei

\alpha _{\text{lokal}}=0.05

, in Abhängigkeit von der Anzahl

k

durchgeführter unabhängiger Tests.

Bei multiplen Testproblemen werden das lokale (nur die einzelne Hypothese betreffende) α-Niveau und das globale α-Niveau (für die gesamte Hypothesenfamilie) unterschieden. Es gibt mehrere Methoden für die Anpassung (Adjustierung) des lokalen α-Niveaus. So wird bei der Bonferroni-Korrektur das globale α-Niveau durch die Zahl der Tests geteilt um das lokale α-Niveau zu erhalten. Dadurch sinkt das Alpha-Risiko entsprechend:

1-\left(1-{\frac {\alpha _{\text{global}}}{k}}\right)^{k}

.

Noch genauer wäre die Šidák-Korrektur anzuwenden und für jede Nullhypothese das lokale α auf der Basis des globalen Niveaus nach folgender Formel anzupassen: ${\alpha _{\text{lokal}}=1-(1-\alpha _{\text{global}})^{1/k}}\$ mit k= Anzahl der Einzelhypothesen. Daneben gibt es auch noch andere Methoden der Adjustierung, siehe z. B. Falscherkennungsrate.

Wie aber kann man dieser α-Fehler-Inflation entgegenwirken bzw. sie korrigieren?

Bonferroni-Korrektur

Die Bonferroni-Korrektur ist die einfachste und konservativste Form, das multiple α-Niveau anzupassen.^[3] Dabei wird das globale α-Niveau zu gleichen Teilen auf die Einzeltests verteilt:

P(H_{i}{\text{ wird abgelehnt, obwohl }}H_{i}{\text{ richtig ist}})\leq {\frac {\alpha }{k}}\quad {\text{für }}i=1,\dots ,k\;,

jeder Einzeltest wird also mit dem Niveau $\alpha /k$ (und nicht $\alpha$ ) durchgeführt. Daraus folgt mittels der Bonferroni-Ungleichung, dass die Ungleichung

P({\text{Mindestens ein }}H_{i}{\text{ wird abgelehnt, obwohl alle }}H_{i}{\text{ richtig sind}})\leq \alpha

erfüllt ist. Aus dem lokalen Niveau $\alpha /k$ ergibt sich also das globale Niveau $\alpha$ . Die sehr konservative Vorgehensweise bei der Bonferroni-Korrektur hat den Nachteil, dass das Ergebnis einen sehr geringen p-Wert aufweisen muss, um als statistisch signifikant gelten zu können. Dies versuchen Weiterentwicklungen wie die Bonferroni-Holm-Prozedur zu vermeiden.

Bonferroni-Holm-Prozedur

Eine Erweiterung der Bonferroni-Korrektur stellt die Bonferroni-Holm-Prozedur^[4] dar. Dabei kommt folgender Algorithmus zum Tragen:

Festlegung des globalen α-Niveaus $\alpha _{\text{global}}$
Durchführung aller Einzeltests und Ermittlung der p-Werte
Sortieren der p-Werte vom Kleinsten zum Größten
Berechnung der lokalen α-Niveaus als Verhältnis von globalem α-Niveau zur Anzahl der Tests - i, wobei gilt:
${i=1,\ldots ,k}$ , $\alpha _{1}={\frac {\alpha _{\text{global}}}{k}}$ , $\alpha _{2}={\frac {\alpha _{\text{global}}}{k-1}}$ , $\alpha _{i}={\frac {\alpha _{\text{global}}}{k-i+1}}$
Vergleiche die p-Werte mit den berechneten sortierten lokalen α-Niveaus (beginnend mit ${\alpha _{1}}\$ ) und wiederhole diesen Schritt so oft, bis der p-Wert größer ist als der zugehörige ${\alpha _{i}}\$ Wert.
Alle Nullhypothesen, deren p kleiner als der lokale α-Wert waren, werden zurückgewiesen (bedeutet: der Effekt ist signifikant, es wird davon ausgegangen, dass die Alternativhypothese zutrifft). Die Prozedur endet mit derjenigen Nullhypothese, deren p größer als das lokale α-Niveau ist. Alle folgenden Nullhypothesen werden nicht zurückgewiesen (unter dem globalen α-Niveau).

Die Bonferroni-Holm-Prozedur ist weniger konservativ als die Bonferroni-Korrektur. Nur der erste Test muss auf dem bei der Bonferroni-Korrektur erforderlichen Niveau statistisch signifikant sein, danach sinkt das nötige Niveau stetig. Allerdings weist auch diese Prozedur ebenso wie die Bonferroni-Korrektur den Nachteil auf, dass eventuelle logische und stochastische Abhängigkeiten zwischen den Teststatistiken nicht genutzt werden.

Šidák-Korrektur

Die Šidák-Korrektur kann angewendet werden, falls die einzelnen Tests stochastisch unabhängig sind oder falls die Teststatistiken insgesamt einer multivariaten Normalverteilung folgen und die Ablehnbereiche der einzelnen Teststatistiken symmetrisch zum jeweiligen Erwartungswert sind. Die Signifikanzniveaus der einzelnen Tests werden als

\alpha _{i}=1-(1-\alpha _{\text{global}})^{1/k}\quad {\text{für }}i=1,\dots ,k

festgelegt, um das globale Niveau $\alpha _{\text{global}}$ zu garantieren.

Neben den beschriebenen Adjustierungen existieren noch weitere Möglichkeiten der Anpassung an ein globales α-Niveau. Dazu gehören beispielsweise:

Tukey T-Methode
Dunnett-Prozedur
Benjamini-Hochberg Prozedur um die Falscherkennungsrate niedrig zu halten

[1]
E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, Chapter 9: Multiple Testing and Simultaneous Inference, doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7).
[2]
Thorsten Dickhaus: Multiples Testen – Skript zur Lehrveranstaltung. Hrsg.: Universität Bremen, Institut für Statistik. Bremen 2022 (uni-bremen.de [PDF; abgerufen am 13. Januar 2023] Version: 8. April 2022).
[3]
A. Victor, A. Elsässer, G. Hommel, M. Blettner: Judging a Plethora of p-Values – How to Contend With the Problem of Multiple Testing – Part 10 of a Series on Evaluation of Scientific Publications. In: Deutsches Ärzteblatt International. Band 107, Nr. 4, 2009, S. 50–56, doi:10.3238/arztebl.2010.0050.
[4]
S. Holm: A simple sequentially rejective multiple test procedure. In: Scandinavian Journal of Statistics. Vol. 6, 1979, S. 65–70.

[1] [1]
E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, Chapter 9: Multiple Testing and Simultaneous Inference, doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7).

[2] [2]
Thorsten Dickhaus: Multiples Testen – Skript zur Lehrveranstaltung. Hrsg.: Universität Bremen, Institut für Statistik. Bremen 2022 (uni-bremen.de [PDF; abgerufen am 13. Januar 2023] Version: 8. April 2022).

[3] [3]
A. Victor, A. Elsässer, G. Hommel, M. Blettner: Judging a Plethora of p-Values – How to Contend With the Problem of Multiple Testing – Part 10 of a Series on Evaluation of Scientific Publications. In: Deutsches Ärzteblatt International. Band 107, Nr. 4, 2009, S. 50–56, doi:10.3238/arztebl.2010.0050.

[4] [4]
S. Holm: A simple sequentially rejective multiple test procedure. In: Scandinavian Journal of Statistics. Vol. 6, 1979, S. 65–70.

[1]

[2]

[3]

[4]