Imputacja

Imputacja – sztuczne wstawienie pewnych wartości do tabeli danych. Na ogół imputacja jest wykonywana w celu usunięcia tzw. braków danych, czyli wartości nieznanych. Wiele metod statystycznych nie akceptuje bowiem obserwacji z brakami danych.

Istnieje wiele różnych metod uzupełniania braków danych (ang. missing data imputation), najprostszą jest zastąpienie braków danych średnią ze wszystkich wartości danej zmiennej w próbce.

Imputacja wielokrotna

Zaawansowaną, a przy tym uniwersalną metodą imputacji jest imputacja wielokrotna (ang. Multiple Imputation) Rubina[1]. Metoda ta działa w następujący sposób:

Niech M : A B {\displaystyle M\colon A\rightarrow B} jest dowolną metodą statystyczną wymagającą kompletnych danych, której dane wejściowe to A {\displaystyle A} a dane wyjściowe to B . {\displaystyle B.} Załóżmy, że nasze dane X {\displaystyle X} mają braki danych, a chcielibyśmy zastosować metodę M . {\displaystyle M.}

1. Estymujemy parametry wielowymiarowego rozkładu R {\displaystyle R} danych X . {\displaystyle X.}
2. Wykonujemy w pętli dużą liczbę razy, dla i = 1 , 2 , , N {\displaystyle i=1,2,\dots ,N} następujące czynności:

2a. Uzupełniamy braki danych w X {\displaystyle X} wartościami wylosowanymi z rozkładu R , {\displaystyle R,} uzyskując X i {\displaystyle X_{i}}
2b. Stosujemy metodę M , {\displaystyle M,} czyli wyliczamy Y i = M ( X i ) {\displaystyle Y_{i}=M(X_{i})}

3. Łączymy (uśredniamy) wyniki Y 1 , Y 2 , Y N , {\displaystyle Y_{1},Y_{2}\dots ,Y_{N},} aby otrzymać Y . {\displaystyle Y.} Algorytm łączenia musi być dobrany do metody M . {\displaystyle M.} W przypadku metod, dla których Y {\displaystyle Y} jest liczbą rzeczywistą, może to być np. średnia arytmetyczna. W przypadku niektórych metod (np. analiza skupień) łączenie nie jest trywialne i może być wręcz niemożliwe.

Przypisy

  1. D.B. Rubin: Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons, 1987.

Linki zewnętrzne

Zobacz hasło imputacja w Wikisłowniku
  • Multiple imputation FAQ. stat.psu.edu. [zarchiwizowane z tego adresu (2005-02-12)]. (ang.)