Rozkład Hotellinga

Statystyka T² Hotellinga[1] – uogólnienie rozkładu Studenta, który jest używany do testowania hipotez wielowymiarowych. Nazwa pochodzi od Harolda Hotellinga.

Statystyka Hotellinga jest definiowana jako:

t 2 = n ( x μ ) W 1 ( x μ ) , {\displaystyle t^{2}=n(\mathbf {x} -\mathbf {\mu } )'\mathbf {W} ^{-1}(\mathbf {x} -\mathbf {\mu } ),}

gdzie n {\displaystyle n} jest liczbą obserwacji, x {\displaystyle \mathbf {x} } jest p-wymiarową kolumną wektorową, a W {\displaystyle \mathbf {W} } jest p × p {\displaystyle p\times p} macierzą kowariancji.

Jeśli x N p ( μ , V ) {\displaystyle x\sim N_{p}(\mu ,\mathbf {V} )} jest zmienną losową z wielowymiarowego rozkładu Gaussa i W W p ( m , V ) {\displaystyle \mathbf {W} \sim W_{p}(m,\mathbf {V} )} (niezależne od x {\displaystyle x} ) ma rozkład Wisharta z taką samą macierzą wariancji V {\displaystyle \mathbf {V} } oraz z m = n 1 , {\displaystyle m=n-1,} wówczas rozkład t 2 {\displaystyle t^{2}} jest T 2 ( p , m ) , {\displaystyle T^{2}(p,m),} rozkładem T² Hotellinga z parametrami p {\displaystyle p} i m . {\displaystyle m.}

Można pokazać, że:

m p + 1 p m T 2 F p , m p + 1 , {\displaystyle {\frac {m-p+1}{pm}}T^{2}\sim F_{p,m-p+1},}

gdzie F {\displaystyle F} jest rozkładem F Snedecora.

Teraz załóżmy, że

x 1 , , x n {\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n}}

jest p × 1 {\displaystyle p\times 1} kolumną wektorową, której wartościami są liczby rzeczywiste. Załóżmy, że

x ¯ = ( x 1 + + x n ) / n {\displaystyle {\overline {\mathbf {x} }}=(\mathbf {x} _{1}+\ldots +\mathbf {x} _{n})/n}

są ich średnią. Niech p × p {\displaystyle p\times p} będzie macierzą dodatnie określoną

W = i = 1 n ( x i x ¯ ) ( x i x ¯ ) / ( n 1 ) {\displaystyle \mathbf {W} =\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'/(n-1)}

jest macierzą „przykładowych wariancji”. (Transpozycja jakiejkolwiek macierzy M {\displaystyle M} jest oznaczona jako M {\displaystyle M'} ). Niech μ {\displaystyle \mu } będzie znanym p × 1 {\displaystyle p\times 1} wektorem. Wówczas statystyka Hotellinga przyjmuje postać:

t 2 = n ( x ¯ μ ) W 1 ( x ¯ μ ) . {\displaystyle t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } ).}

Warto zauważyć, że t 2 {\displaystyle t^{2}} jest blisko powiązona z kwadratem odległością Mahalanobisa.

W szczególności może to być pokazane poprzez[2]:

Jeśli x 1 , , x n N p ( μ , V ) , {\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n}\sim N_{p}(\mu ,\mathbf {V} ),} są niezależne, i x ¯ {\displaystyle {\overline {\mathbf {x} }}} i W {\displaystyle \mathbf {W} } są jak zdefiniowano powyżej, wówczas W {\displaystyle \mathbf {W} } ma rozkład Wisharta z n 1 {\displaystyle n-1} stopniami swobody

W W p ( V , n 1 ) {\displaystyle \mathbf {W} \sim W_{p}(V,n-1)}

i jest niezależna od x ¯ , {\displaystyle {\overline {\mathbf {x} }},} oraz

x ¯ N p ( μ , V / n ) . {\displaystyle {\overline {\mathbf {x} }}\sim N_{p}(\mu ,V/n).}

To oznacza, że:

t 2 = n ( x ¯ μ ) W 1 ( x ¯ μ ) T 2 ( p , n 1 ) . {\displaystyle t^{2}=n({\overline {\mathbf {x} }}-\mathbf {\mu } )'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-\mathbf {\mu } )\sim T^{2}(p,n-1).}

Statystyka T² Hotellinga dla dwóch prób

Jeśli x 1 , , x n x N p ( μ , V ) {\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{n_{x}}\sim N_{p}({\boldsymbol {\mu }},\mathbf {V} )} oraz y 1 , , y n y N p ( μ Y , V ) , {\displaystyle \mathbf {y} _{1},\dots ,\mathbf {y} _{n_{y}}\sim N_{p}({\boldsymbol {\mu }}_{Y},\mathbf {V} ),} są próbkami niezależnymi wyciągniętymi z dwóch niezależnych wielowymiarowych rozkładów Gaussa o takiej samej średniej oraz kowariancji, i definiujemy

x ¯ = 1 n x i = 1 n x x i y ¯ = 1 n y i = 1 n y y i {\displaystyle {\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}}

jako średnie próbek, oraz

W = i = 1 n x ( x i x ¯ ) ( x i x ¯ ) + i = 1 n y ( y i y ¯ ) ( y i y ¯ ) n x + n y 2 {\displaystyle \mathbf {W} ={\frac {\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'+\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'}{n_{x}+n_{y}-2}}}

jako estymator nieobciążonej macierzy kowariancji, wówczas statystyka T² Hotellinga dla dwóch prób wygląda tak:

t 2 = n x n y n x + n y ( x ¯ y ¯ ) W 1 ( x ¯ y ¯ ) T 2 ( p , n x + n y 2 ) {\displaystyle t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'\mathbf {W} ^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)}

i może być przedstawiona w postaci rozkładu F Snedecora:

n x + n y p 1 ( n x + n y 2 ) p t 2 F ( p , n x + n y 1 p ) {\displaystyle {\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p)} [2].

Zobacz też

Przypisy

  1. H. Hotelling (1931) The generalization of Student’s ratio, Ann. Math. Statist., Vol. 2, s. 360–378.
  2. a b K.V. Mardia, J.T. Kent, J.M. Bibby (1979), Multivariate Analysis, Academic Press.