Test Shapiro-Wilka

Test Shapiro–Wilka – standardowy test statystyczny, wykorzystywany do testowania normalności danych. Został opublikowany w 1965 roku przez Samuela Shapiro i Martina Wilka.

Teoria

Załóżmy, że pobraliśmy próbę x 1 , , x n {\displaystyle x_{1},\dots ,x_{n}} i chcemy sprawdzić czy pochodzi z rozkładu normalnego. Hipoteza zerowa i alternatywna w teście Shapiro–Wilka ma następującą postać:

H 0 : {\displaystyle H_{0}{:}} Próba pochodzi z populacji o rozkładzie normalnym
H 1 : {\displaystyle H_{1}{:}} Próba nie pochodzi z populacji o rozkładzie normalnym.

W celu przeprowadzenia testu wykorzystuje się statystykę W : {\displaystyle W{:}}

  • Uporządkuj obserwacje niemalejąco: y 1 y 2 y n {\displaystyle y_{1}\leqslant y_{2}\leqslant \ldots \leqslant y_{n}}
  • Oblicz: S S E = i = 1 n ( y i y ¯ ) 2 {\displaystyle {\mathit {SSE}}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}
  • Jeżeli n {\displaystyle n} jest parzyste, niech m = n 2 , {\displaystyle m={\frac {n}{2}},} w przeciwnym razie m = n 1 2 {\displaystyle m={\frac {n-1}{2}}}
  • Używając stabelaryzowanych wartości a i {\displaystyle a_{i}} oblicz b = i = 1 m a i ( y n + 1 i y i ) {\displaystyle b=\sum _{i=1}^{m}a_{i}(y_{n+1-i}-y_{i})}
  • Oblicz statystykę W = b 2 S S E {\displaystyle W={\frac {b^{2}}{\mathit {SSE}}}}
  • Porównaj wynik ze stabelaryzowanymi wartościami dla odpowiednich poziomów ufności i liczebności próby.

Przykład

W celu zilustrowania procesu, załóżmy, że mamy następujące obserwacje:

x 1 = 6 , x 2 = 1 , x 3 = 4 , x 4 = 8 , x 5 = 2 , x 6 = 5 , x 7 = 0. {\displaystyle x_{1}=6,x_{2}=1,x_{3}=-4,x_{4}=8,x_{5}=-2,x_{6}=5,x_{7}=0.}
  • Sortując otrzymujemy: y 1 = 4 , y 2 = 2 , y 3 = 0 , y 4 = 1 , y 5 = 5 , y 6 = 6 , y 7 = 8. {\displaystyle y_{1}=-4,y_{2}=-2,y_{3}=0,y_{4}=1,y_{5}=5,y_{6}=6,y_{7}=8.}
  • Obliczając S S E = i = 1 7 ( y i y ¯ ) 2 = 118 {\displaystyle {\mathit {SSE}}=\sum _{i=1}^{7}(y_{i}-{\bar {y}})^{2}=118}
  • Dla wartości n = 7 {\displaystyle n=7} z odpowiednich tabel otrzymujemy kolejne wartości: a 7 = 0,623 3 , a 6 = 0,303 1 , a 5 = 0,140 1 , a 4 = 0,000 0 {\displaystyle a_{7}=0{,}6233,a_{6}=0{,}3031,a_{5}=0{,}1401,a_{4}=0{,}0000} oraz wartość b = 0,623 3 ( 8 + 4 ) + 0,303 1 ( 6 + 2 ) + 0,140 1 ( 5 0 ) = 10,604 9 {\displaystyle b=0{,}6233(8+4)+0{,}3031(6+2)+0{,}1401(5-0)=10{,}6049}
  • Wartość statystyki W = 10,604 9 2 118 = 0,953 0 {\displaystyle W={\frac {10{,}6049^{2}}{118}}=0{,}9530}

Wartość teoretycznej statystyki W {\displaystyle W} na poziomie istotności 5 % {\displaystyle 5\%} i n = 7 {\displaystyle n=7} wynosi 0,803. {\displaystyle 0{,}803.} Ponieważ ta wartość jest mniejsza niż otrzymana z testu, nie mamy powodu odrzucić hipotezy, że próba pochodzi z rozkładu normalnego.

Porównanie z innymi testami

Analiza porównawcza przy użyciu metod Monte Carlo pokazała, że test Shapiro–Wilka ma największą moc spośród testów badających normalność: testu Andersona–Darlinga, testu Kołmogorowa–Smirnowa czy testu Lillieforsa[1].

Modyfikacja testu

Oryginalnie zaproponowane podejście ograniczało się do próbek poniżej 50 obserwacji. Royston w 1995 roku zaproponował algorytm AS R181, który mógł być wykorzystany w zakresie 3 n 5000. {\displaystyle 3\leqslant n\leqslant 5000.}

Zobacz też

Przypisy

  1. Nornadiah MohdN.M. Razali Nornadiah MohdN.M., Yap BeeY.B. Wah Yap BeeY.B., Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests, „Journal of Statistical Modeling and Analytics”, Vol. 2 No. 1, 2011, s. 21–33 .

Bibliografia

  • S.S. Shapiro, M.B. Wilk., An Analysis of Variance Test for Normality, Biometrika, Vol. 52, No. 3/4. (Dec., 1965), s. 591–611
  • Nornadiah Mohd Razali, Yap Bee Wah, Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests, Journal of Statistical Modeling and Analytics, Vol. 2 No. 1, 21–33, 2011

Linki zewnętrzne

  • Tabele wartości dla testu Shapiro–Wilka (ang.)
Encyklopedie internetowe (test normalności rozkładu):
  • PWN: 4001105