Top-Fragen
Zeitleiste
Chat
Kontext

PRESS-Statistik

Aus Wikipedia, der freien Enzyklopädie

Remove ads

Unter der PRESS-Statistik (PRESS: Predicted Residual Sum of Squares englisch für vorhergesagte Residuenquadratsumme) oder auch prädiktive Residuenquadratsumme[1] (englisch predictive residual sum of squares) versteht man ein Maß zur Anpassung eines bestimmten Modells an eine Stichprobe, die bei der Modellschätzung nicht berücksichtigt wurde. Der wesentliche Unterschied zu einer normalen Residuenquadratsumme besteht darin, dass zur Berechnung der PRESS-Statistik ausschließlich gemessene und geschätzte Werte benutzt werden, die für das Modell „neu“ sind. Das heißt, das Modell wurde anhand eines Trainingsdatensatzes geschätzt. Dann werden neue Beobachtungen hinzugezogen (Testdatensatz), für die man Schätzungen mit dem „trainierten“ Modell durchführt.

Remove ads

Berechnung

Zusammenfassung
Kontext

Holdout Datensatz

Die PRESS-Statistik wird wie folgt berechnet:

.

Dies entspricht einer Quadratsumme, wobei für die neuen Beobachtungswerte steht und für deren vorhergesagte Werte. Um den oben erwähnten Unterschied zur gewöhnlichen Residuenquadratsumme (residual sum of squares, kurz RSS) deutlich zu machen, kann man die Formel auch anders ausdrücken:[2]

.

Hier soll verdeutlicht werden, dass Werte für einen externen Datensatz vorhergesagt wurden. Der Unterschied zur normalen Residuenquadratsumme besteht lediglich im Kontext der betrachteten Daten und nicht in der Rechenvorschrift. Durch den Hold-out Testdatensatz wird der (auf den Trainingsdatensatz) bedingte Testfehler berechnet.

Kreuzvalidierung

Thumb
Leave-One-Out-Kreuzvalidierung: Illustration zum fitten mehrerer Modelle und dem Auffinden der PRESS-Statistik bei n=8-Beobachtungen

Manchmal wird PRESS auch als das Ergebnis bzw. eine Form der Kreuzvalidierung verwendet. Das PRESS-Konzept lässt sich aber auch für andere Vorhersagen benutzen.[3] Die Berechnung findet wie im Absatz oben statt, allerdings wird wiederholt ein Holdout Datensatz verwendet und dann der erwartete Testfehler berechnet.

Remove ads

Verwendung

Zusammenfassung
Kontext

Mithilfe der PRESS-Statistik lassen sich durch weitere Berechnungen auch der mittlere quadratische Prognosefehler (englisch mean squared error of prediction, kurz: MSEP) und die Wurzel des mittleren quadratischen Prognosefehlers (englisch root mean squared error of prediction, kurz: RMSEP) berechnen. Dies sind Maße um die Vorhersagefähigkeit von Modellen (z. B. bei einer Hauptkomponentenregression) zu beurteilen.[4] Da die PRESS-Statistik allerdings die Größe des Datensatzes nicht berücksichtigt, ist diese Kennzahl nur zum Vergleich von Modellen mit gleich vielen Beobachtungen geeignet.

Außerdem kommt die PRESS-Statistik bei der partiellen Kleinste-Quadrate-Schätzung (kurz: PKQ) zur Kreuzvalidierung (Verifikation) von Stichproben zum Einsatz.[5]

Die PRESS-Statistik kann auch einen Hinweis auf Überanpassung bei einer durchgeführten Regression liefern. Modelle, die zu viele Parameter enthalten, tendieren dazu, geringe Residuen zu den Beobachtungen zu haben (niedrige ), die für das Modell verwendet wurden, aber relativ große Residuen zu neuen Beobachtungen (hohe ).

Remove ads

Einzelnachweise

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads