F-тест

Не следует путать с точным тестом Фишера — тестом статистической значимости, используемым в анализе таблиц сопряжённости.

F-тест или критерий Фишера (F-критерий, φ*-критерий) — статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).

Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера, необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.

Тест проводится путём сравнения значения статистики с критическим значением соответствующего распределения Фишера при заданном уровне значимости. Известно, что если F F ( m , n ) {\displaystyle F\sim F(m,n)} , то 1 / F F ( n , m ) {\displaystyle 1/F\sim F(n,m)} . Кроме того, квантили распределения Фишера обладают свойством F 1 α = 1 / F α {\displaystyle F_{1-\alpha }=1/F_{\alpha }} . Поэтому обычно на практике в числителе участвует потенциально большая величина, в знаменателе — меньшая и сравнение осуществляется с «правой» квантилью распределения. Тем не менее тест может быть и двусторонним, и односторонним. В первом случае при уровне значимости α {\displaystyle \alpha } используется квантиль F α / 2 {\displaystyle F_{\alpha /2}} , а при одностороннем тесте — F α {\displaystyle F_{\alpha }} [1].

Более удобный способ проверки гипотез — с помощью p-значения p ( F ) {\displaystyle p(F)}  — вероятностью того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если p ( F ) {\displaystyle p(F)} (для двустороннего теста — 2 p ( F {\displaystyle 2p(F} )) меньше уровня значимости α {\displaystyle \alpha } , то нулевая гипотеза отвергается, в противном случае принимается.

Примеры F-тестов

F-тест на равенство дисперсий

Две выборки

Пусть имеются две выборки объёмом m и n соответственно случайных величин X и Y, имеющих нормальное распределение. Необходимо проверить равенство их дисперсий. Статистика теста

F = σ ^ X 2 σ ^ Y 2     F ( m 1 , n 1 ) {\displaystyle F={\frac {{\hat {\sigma }}_{X}^{2}}{{\hat {\sigma }}_{Y}^{2}}}~\sim ~F(m-1,n-1)}

где σ ^ 2 {\displaystyle {{\hat {\sigma }}^{2}}}  — выборочная дисперсия.

Если статистика больше критического значения, соответствующего выбранному уровню значимости, то дисперсии случайных величин признаются не одинаковыми.

Несколько выборок

Пусть выборка объёмом N случайной величины X разделена на k групп с количеством наблюдений n i {\displaystyle n_{i}} в i-ой группе.

Межгрупповая («объяснённая») дисперсия: σ ^ B G 2 = i = 1 k n i ( x i ¯ x ¯ ) 2 / ( k 1 ) {\displaystyle {\hat {\sigma }}_{BG}^{2}=\sum _{i=1}^{k}n_{i}({\overline {x_{i}}}-{\overline {x}})^{2}/(k-1)}

Внутригрупповая («необъяснённая») дисперсия: σ ^ W G 2 = i = 1 k j = 1 n i ( x i j x ¯ i ) 2 / ( N k ) {\displaystyle {\hat {\sigma }}_{WG}^{2}=\sum _{i=1}^{k}\sum _{j=1}^{n_{i}}(x_{ij}-{\overline {x}}_{i})^{2}/(N-k)}

F = σ ^ B G 2 σ ^ W G 2     F ( k 1 , N k ) {\displaystyle F={\frac {{\hat {\sigma }}_{BG}^{2}}{{\hat {\sigma }}_{WG}^{2}}}~\sim ~F(k-1,N-k)}

Данный тест можно свести к тестированию значимости регрессии переменной X на фиктивные переменные-индикаторы групп. Если статистика превышает критическое значение, то гипотеза о равенстве средних в выборках отвергается, в противном случае средние можно считать одинаковыми.

Проверка ограничений на параметры регрессии

Статистика теста для проверки линейных ограничений на параметры классической нормальной линейной регрессии определяется по формуле:

F = ( R S S S R S S L ) / q R S S L / ( n k L ) = ( R L 2 R S 2 ) / q ( 1 R L 2 ) / ( n k L )     F ( q , n k L ) {\displaystyle F={\frac {(RSS_{S}-RSS_{L})/q}{RSS_{L}/(n-k_{L})}}={\frac {(R_{L}^{2}-R_{S}^{2})/q}{(1-R_{L}^{2})/(n-k_{L})}}~\sim ~F(q,n-k_{L})}

где q = k L k S {\displaystyle q=k_{L}-k_{S}} -количество ограничений, n-объём выборки, k-количество параметров модели, RSS-сумма квадратов остатков модели, R 2 {\displaystyle R^{2}} -коэффициент детерминации, индексы S и L относятся соответственно к короткой и длинной модели (модели с ограничениями и модели без ограничений).

Замечание

Описанный выше F-тест является точным в случае нормального распределения случайных ошибок модели. Однако F-тест можно применить и в более общем случае. В этом случае он является асимптотическим. Соответствующую F-статистику можно рассчитать на основе статистик других асимптотических тестов — теста Вальда (W), теста множителей Лагранжа(LM) и теста отношения правдоподобия (LR) — следующим образом:

F = n k q W / n   ,   F = n k q L M n L M   ,   F = n k q ( e L R / n 1 ) {\displaystyle F={\frac {n-k}{q}}W/n~,~F={\frac {n-k}{q}}{\frac {LM}{n-LM}}~,~F={\frac {n-k}{q}}(e^{LR/n}-1)} Все эти статистики асимптотически имеют распределение F(q, n-k), несмотря на то, что их значения на малых выборках могут различаться.

Проверка значимости линейной регрессии

Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. В данном случае нулевая гипотеза — об одновременном равенстве нулю всех коэффициентов при факторах регрессионной модели (то есть всего ограничений k-1). В данном случае короткая модель — это просто константа в качестве фактора, то есть коэффициент детерминации короткой модели равен нулю. Статистика теста равна:

F = R 2 / ( k 1 ) ( 1 R 2 ) / ( n k )     F ( k 1 , n k ) {\displaystyle F={\frac {R^{2}/(k-1)}{(1-R^{2})/(n-k)}}~\sim ~F(k-1,n-k)}

Соответственно, если значение этой статистики больше критического значения при данном уровне значимости, то нулевая гипотеза отвергается, что означает статистическую значимость регрессии. В противном случае модель признается незначимой.

Пример

Пусть оценивается линейная регрессия доли расходов на питание в общей сумме расходов на константу, логарифм совокупных расходов, количество взрослых членов семьи и количество детей до 11 лет. То есть всего в модели 4 оцениваемых параметра (k=4). Пусть по результатам оценки регрессии получен коэффициент детерминации R 2 = 41.2366 % {\displaystyle R^{2}=41.2366\%} . По вышеприведенной формуле рассчитаем значение F-статистики в случае, если регрессия оценена по данным 34 наблюдений и по данным 64 наблюдений: F 1 = 0.412366 / ( 4 1 ) ( 1 0.412366 ) / ( 34 4 ) = 0 , 70174 10 = 7 , 02 {\displaystyle F_{1}={\frac {0.412366/(4-1)}{(1-0.412366)/(34-4)}}=0,70174*10=7,02}

F 2 = 0.412366 / ( 4 1 ) ( 1 0.412366 ) / ( 64 4 ) = 0 , 70174 20 = 14.04 {\displaystyle F_{2}={\frac {0.412366/(4-1)}{(1-0.412366)/(64-4)}}=0,70174*20=14.04}

Критическое значение статистики при 1 % уровне значимости (в Excel функция FРАСПОБР) в первом случае равно F 1 % ( 3 , 30 ) = 4 , 51 {\displaystyle F_{1\%}(3,30)=4,51} , а во втором случае F 1 % ( 3 , 60 ) = 4 , 13 {\displaystyle F_{1\%}(3,60)=4,13} . В обоих случаях регрессия признается значимой при заданном уровне значимости. В первом случае P-значение равно 0,1 %, а во втором — 0,00005 %. Таким образом, во втором случае уверенность в значимости регрессии существенно выше (существенно меньше вероятность ошибки в случае признания модели значимой).

Проверка гетероскедастичности

См. Тест Голдфелда-Куандта

См. также

Примечания

  1. F-Test for Equality of Two Variances (англ.). NIST. Дата обращения: 29 марта 2017. Архивировано 9 марта 2017 года.