Distância de Cook

Em estatística, a distância de Cook é uma medida da influência de uma observação ao realizar-se uma análise de regressão de mínimos quadrados. O nome é uma homenagem ao estatístico americano R. Dennis Cook. A distância de Cook mede o efeito de excluir uma dada observação. E em pontos com grande distância de Cook considera-se checagem para validação.

A distância de Cook é definida como

D i = j = 1 n ( Y ^ j   Y ^ j ( i ) ) 2 p   M S E . {\displaystyle D_{i}={\frac {\sum _{j=1}^{n}({\hat {Y}}_{j}\ -{\hat {Y}}_{j(i)})^{2}}{p\ \mathrm {MSE} }}.}

Que é algebricamente equivalente à expressão

D i = e i 2 p   M S E [ h i i ( 1 h i i ) 2 ] . {\displaystyle D_{i}={\frac {e_{i}^{2}}{p\ \mathrm {MSE} }}\left[{\frac {h_{ii}}{(1-h_{ii})^{2}}}\right].}

Nas equações acima:

Y ^ j {\displaystyle {\hat {Y}}_{j}\,} é a previsão do modelo de regressão completo para a observação j;
Y ^ j ( i ) {\displaystyle {\hat {Y}}_{j(i)}\,} é a previsão de observação j de um modelo de regressão reformado em que a observação i foi omitida;
h i i {\displaystyle h_{ii}\,} é o i-nésimo elemento da diagonal da matriz de projeção X ( X T X ) 1 X T {\displaystyle \mathbf {X} \left(\mathbf {X} ^{T}\mathbf {X} \right)^{-1}\mathbf {X} ^{T}} ;
e i {\displaystyle e_{i}\,} é o resíduo bruto (i.e., a diferença entre o valor observado e o valor ajustado pelo modelo proposto);
M S E {\displaystyle \mathrm {MSE} \,} é o erro quadrático médio do modelo de regressão;
p {\displaystyle p} é o número de parâmetros ajustados no modelo

Detecção de observações altamente influentes

Há mais de uma opinião a respeito de quais pontos de corte devem ser usados para se detectar pontos altamente influentes. A norma operacional D i > 1 {\displaystyle D_{i}>1} é uma das sugeridas.[1] Outros sugerem o uso de D i > 4 / n {\displaystyle D_{i}>4/n} , onde n {\displaystyle n} é o número de observações.[2]

Notas

  • Este artigo foi inicialmente traduzido, total ou parcialmente, do artigo da Wikipédia em inglês cujo título é «Cook's distance», especificamente desta versão.

Referências

  1. Cook, R. Dennis; and Weisberg, Sanford (1982); Residuals and influence in regression, New York, NY: Chapman & Hall
  2. Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases, in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91). Newbury Park, CA: Sage
  • Cook, R. Dennis (1977). «Detection of Influential Observations in Linear Regression». American Statistical Association. Technometrics. 19 (1): 15–18. JSTOR 1268249. MR 0436478. doi:10.2307/1268249 
  • Cook, R. Dennis (1979). «Influential Observations in Linear Regression». American Statistical Association. Journal of the American Statistical Association. 74 (365): 169–174. JSTOR 2286747. MR 0529533. doi:10.2307/2286747 
  • Lorenz, Frederick O. (1987). «Teaching about Influence in Simple Regression». American Sociological Association. Teaching Sociology. 15 (2): 173–177. JSTOR 1318032. doi:10.2307/1318032 
  • Chatterjee, Samprit; Hadi, Ali S. (2006). Regression analysis by example 4th ed. [S.l.]: John Wiley and Sons. ISBN 0-471-74696-7