Mallows’ Cp-Statistik

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Mallows’ Cp-Statistik, benannt nach Colin Lingwood Mallows, ist ein globales Gütemaß, das die Güte der Anpassung einer Regression bewertet. Es wird vor allem im Kontext einer Modellselektion beziehungsweise einer Variablenselektion verwendet, bei der es Ziel ist, die beste Untermenge der gesamten Prädiktoren zu finden, die die beste Vorhersage liefern. Ein kleiner Wert von C p {\displaystyle C_{p}} bedeutet, dass das Model relativ präzise ist.

Im Spezialfall einer linearen Regression ist Mallows’ C p {\displaystyle C_{p}} -Statistik äquivalent zum AIC (Akaike-Informationskriterium).

Definition und Eigenschaften

Mallows’ C p {\displaystyle C_{p}} -Statistik adressiert das Problem der Überanpassung eines Modells, bei der die Residuenquadratsumme immer kleiner wird, je mehr Variablen man zu dem Modell hinzufügt. Möchte man also das Modell auswählen, welches die kleinste Residuenquadratsumme besitzt, wird man immer das Modell mit allen Variablen wählen.

Mallows’ C p {\displaystyle C_{p}} -Statistik nutzt stattdessen den mittleren quadratischen Prognosefehler (englisch mean squared prediction error, kurz: MSPE):

E j ( Y ^ j E ( Y j X j ) ) 2 / σ 2 {\displaystyle \operatorname {E} \sum _{j}\left({\hat {Y}}_{j}-\operatorname {E} (Y_{j}\mid X_{j})\right)^{2}/\sigma ^{2}} ,

wobei Y ^ j {\displaystyle {\hat {Y}}_{j}} der angepasste Wert aus einem Regressionsmodell mit j Variablen, E ( Y j X j ) {\displaystyle \operatorname {E} (Y_{j}\mid X_{j})} der Erwartungswert dieses Falls und σ 2 {\displaystyle \sigma ^{2}} die Varianz der Fehlerterme ist. Der mittlere quadratische Prognosefehler wird nicht automatisch kleiner, je mehr Variablen man zum Modell hinzufügt.

Werden p {\displaystyle p} Prädiktoren aus einer Gesamtmenge von K > p {\displaystyle K>p} ausgewählt, dann ist die C p {\displaystyle C_{p}} -Statistik für diese Prädiktoren für gewöhnlich definiert als:

C p = S Q R p S 2 N + 2 p {\displaystyle C_{p}={SQR_{p} \over S^{2}}-N+2p} ,

wobei

  • S Q R p = i = 1 N ( Y i Y ^ p ) 2 {\displaystyle SQR_{p}=\sum _{i=1}^{N}(Y_{i}-{\hat {Y}}_{p})^{2}} die Residuenquadratsumme für ein Modell mit p {\displaystyle p} Prädiktoren,
  • Y ^ p {\displaystyle {\hat {Y}}_{p}} der vorhergesagte Wert der i {\displaystyle i} -ten Beobachtung mit p {\displaystyle p} Prädiktoren,
  • S 2 {\displaystyle S^{2}} die Mittlere quadratische Abweichung nach einer Regressionsanalyse auf dem vollständigen Datensatz mit K {\displaystyle K} Prädiktoren,
  • und N {\displaystyle N} die Anzahl der Beobachtungen ist.