Als Ausgangslage betrachten wir ein typisches multiples lineares Regressionsmodell mit gegebenen Daten für statistische Einheiten und Regressoren. Der Zusammenhang zwischen der abhängigen Variablen und den unabhängigen Variablen kann wie folgt dargestellt werden
- .
In Matrixnotation auch
mit . In kompakter Schreibweise
.
Hier stellt einen Vektor von unbekannten Parametern dar (bekannt als Regressionskoeffizienten), die mithilfe der Daten geschätzt werden müssen. Des Weiteren wird angenommen, dass die Fehlerterme im Mittel null sind: , was bedeutet, dass wir davon ausgehen können, dass unser Modell im Mittel korrekt ist.
Die residuenerzeugende Matrix[3] (englisch residual-maker matrix), auch Residuum-erzeugende Matrix, Residualmatrix ist wie folgt definiert
- ,
wobei P die Prädiktionsmatrix darstellt. Der Name residuenerzeugende Matrix ergibt sich dadurch, dass diese Projektionsmatrix multipliziert mit dem y-Vektor den Residualvektor ergibt. Der kann durch die Prädiktionsmatrix kompakt wie folgt ausgedrückt werden
- .
Bei linearen Modellen sind Rang und Spur einer Projektionsmatrix identisch. Für den Rang der residuenerzeugenden Matrix gilt
Idempotenz
Die Idempotenzeigenschaft der residuenerzeugenden Matrix kann wie folgt gezeigt werden
Symmetrie
Die Symmetrie der residuenerzeugenden Matrix folgt direkt aus der Symmetrie der Prädiktionsmatrix und kann wie folgt gezeigt werden
Schätzung des Varianzparameters nach der Kleinste-Quadrate-Schätzung
Die Residuenquadratsumme, kurz SQR (Summe der Quadrate der Restabweichungen (oder: „Residuen“) bzw. englisch sum of squared residuals, kurz SSR) ergibt in Matrixschreibweise
- .
Dies kann auch geschrieben werden als
- .
Eine erwartungstreue Schätzung der Varianz der Störgrößen ist das „mittlere Residuenquadrat“:
- .
Mithilfe der residuenerzeugenden Matrix lässt sich die Varianz der Fehlerterme auch schreiben als
- .
Spezielle Matrizen in der Statistik