Mallows’ Cp-Statistik

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Mallows’ C_p-Statistik, benannt nach Colin Lingwood Mallows, ist ein globales Gütemaß, das die Güte der Anpassung einer Regression bewertet. Es wird vor allem im Kontext einer Modellselektion beziehungsweise einer Variablenselektion verwendet, bei der es Ziel ist, die beste Untermenge der gesamten Prädiktoren zu finden, die die beste Vorhersage liefern. Ein kleiner Wert von $C_{p}$ bedeutet, dass das Model relativ präzise ist.

Im Spezialfall einer linearen Regression ist Mallows’ $C_{p}$ -Statistik äquivalent zum AIC (Akaike-Informationskriterium).

Definition und Eigenschaften

Mallows’ $C_{p}$ -Statistik adressiert das Problem der Überanpassung eines Modells, bei der die Residuenquadratsumme immer kleiner wird, je mehr Variablen man zu dem Modell hinzufügt. Möchte man also das Modell auswählen, welches die kleinste Residuenquadratsumme besitzt, wird man immer das Modell mit allen Variablen wählen.

Mallows’ $C_{p}$ -Statistik nutzt stattdessen den mittleren quadratischen Prognosefehler (englisch mean squared prediction error, kurz: MSPE):

\operatorname {E} \sum _{j}\left({\hat {Y}}_{j}-\operatorname {E} (Y_{j}\mid X_{j})\right)^{2}/\sigma ^{2}

wobei ${\hat {Y}}_{j}$ der angepasste Wert aus einem Regressionsmodell mit j Variablen, $\operatorname {E} (Y_{j}\mid X_{j})$ der Erwartungswert dieses Falls und $\sigma ^{2}$ die Varianz der Fehlerterme ist. Der mittlere quadratische Prognosefehler wird nicht automatisch kleiner, je mehr Variablen man zum Modell hinzufügt.

Werden $p$ Prädiktoren aus einer Gesamtmenge von $K>p$ ausgewählt, dann ist die $C_{p}$ -Statistik für diese Prädiktoren für gewöhnlich definiert als: