Jaka jest zaleta imputacji nad budowaniem wielu modeli w regresji?

Zastanawiam się, czy ktoś mógłby dać wgląd w to, czy imputacja dla brakujących danych jest lepsza niż po prostu budowanie różnych modeli dla przypadków z brakującymi danymi. Zwłaszcza w przypadku [uogólnionych] modeli liniowych (być może widzę, że w przypadkach nieliniowych rzeczy są różne)

Załóżmy, że mamy podstawowy model liniowy:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Ale nasz zestaw danych zawiera pewne rekordy z brakującym . W zestawie danych prognostycznych, w którym model będzie używany, będą również przypadki braku . Wydaje się, że istnieją dwa sposoby: $X_3$ $X_3$

Wiele modeli

Moglibyśmy podzielić dane na i nie- przypadkach i budować oddzielny model dla siebie. Jeśli przypuszczamy, że jest ściśle związany z to brakujący model danych może przeważyć aby uzyskać najlepszą prognozę dwóch predyktorów. Również jeśli przypadki brakujących danych są nieco inne (z powodu mechanizmu brakujących danych), może uwzględnić tę różnicę. Z drugiej strony oba modele dopasowują się tylko do części danych i nie pomagają sobie nawzajem, więc dopasowanie może być słabe w przypadku ograniczonych zestawów danych. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Przypisanie

$X_3$ $X_1$ $X_2$ $X_1$

EDYTOWAĆ:

Chociaż dotychczasowa odpowiedź Steffana wyjaśnia, że dopasowanie kompletnego modelu przypadku do danych przypisywanych przewyższy dopasowanie do kompletnych danych, i wydaje się oczywiste, że jest odwrotnie, nadal istnieje pewne nieporozumienie dotyczące prognozowania brakujących danych.

$X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

$(X_1, X_2)$ $(X_1, X_2, X_3)$

$X_3$

regression missing-data data-imputation Korone
źródło

Odpowiedzi:

Myślę, że kluczem tutaj jest zrozumienie mechanizmu braku danych; lub przynajmniej wyklucza niektóre. Budowanie oddzielnych modeli jest podobne do traktowania brakujących i brakujących grup jako losowych próbek. Jeśli brak na X3 jest związany z X1 lub X2 lub jakąś inną nieobserwowaną zmienną, wówczas twoje szacunki będą prawdopodobnie tendencyjne w każdym modelu. Dlaczego nie zastosować wielokrotnej imputacji w zestawie danych programistycznych i użyć połączonych współczynników w zestawie predykcji wielokrotnego imputacji? Średnia w prognozach i powinieneś być dobry.

ReliableResearch
źródło

Ale jeśli brak jest związany z X1 lub X2, to z pewnością dobrze jest mieć dwa oddzielne modele - ponieważ będą one zawierać tę informację. Innymi słowy, kiedy w przyszłości otrzymam brakujący X3, będę wiedział, że jestem stronniczy we właściwym kierunku.

Korone

Zakładam, że jesteś zainteresowany uzyskaniem obiektywnych oszacowań współczynników regresji. Analiza kompletnych przypadków daje obiektywne szacunki współczynników regresji, pod warunkiem, że prawdopodobieństwo braku X3 nie zależy od Y. Dzieje się tak, nawet jeśli prawdopodobieństwo braku zależy od X1 lub X2, i dla każdego rodzaju analizy regresji.

Oczywiście szacunki mogą być nieefektywne, jeśli odsetek kompletnych przypadków jest niewielki. W takim przypadku można użyć wielokrotnego przypisania X3 dla X2, X1 i Y w celu zwiększenia precyzji. Szczegółowe informacje można znaleźć w White and Carlin (2010) Stat Med .

Stef van Buuren
źródło

Ach, więc czy w imputacji chodzi o właściwe współczynniki? Same współczynniki mnie nie interesują - chcę tylko zmaksymalizować moją moc predykcyjną na nowych danych (które mogą również mieć braki)

Korone

W porządku. Aby osiągnąć maksymalną moc predykcyjną, chcielibyście również dokładnych i obiektywnych oszacowań współczynników modelu.

Stef van Buuren

Jeśli używam tylko kompletnych przypadków, nie mogę użyć tego modelu do przewidywania, gdy brakuje mi danych, ponieważ współczynniki będą ogólnie niepoprawne (na przykład, jeśli istnieje korelacja między X2 i X3). Muszę więc albo przypisać X3 przy tworzeniu prognozy, albo zbudować drugi model tylko w X1 i X2. Pytanie brzmi, czy skutkuje to różnymi przewidywaniami, a co jest lepsze?

Korone

Ach, myślę, że rozumiem jeden punkt, który robisz: jeśli dopasuję model do przewidywania kompletnych przypadków za pomocą imputacji, poprawi to pełną prognozę przypadków, w porównaniu z dopasowaniem jej tylko do przypadków konkurencji. Pozostaje pytanie, co jest najlepsze w przypadku niepełnych przypadków?

Korone

Załóżmy, że beta_1 = beta_2 = 0 i beta_3 = 1. Używanie tylko X1 i X2 pozwoli przewidzieć stałą, podczas gdy przewidywanie przy użyciu X3 wyjaśni niektóre wariancje Y, a zatem spowoduje zmniejszenie błędu resztkowego. W ten sposób przypisana wersja daje lepsze prognozy.

Stef van Buuren

Jedno badanie z Harvardu sugeruje wielokrotne przypisanie pięciu prognoz brakujących danych (tutaj jest odnośnik, http://m.circoutcome.ahajournals.org/content/3/1/98.full ). Nawet wtedy przypominam sobie komentarze, że modele imputacji mogą nadal nie generować przedziałów pokrycia dla parametrów modelu, które nie zawierają prawdziwych wartości bazowych!

Mając to na uwadze, wydaje się, że najlepiej jest zastosować pięć prostych naiwnych modeli dla brakującej wartości (zakładając, że nie brakuje jej losowo w bieżącej dyskusji), które dają dobry rozkład wartości, tak aby przedziały czasowe mogły przynajmniej zawierać prawdziwe parametry .

Moje doświadczenie w teorii próbkowania jest takie, że wiele zasobów jest często wydawanych na podpróbkowanie populacji bez odpowiedzi, która czasami wydaje się bardzo różnić od populacji pacjentów z odpowiedzią. Jako taki zaleciłbym podobne ćwiczenie polegające na regresji brakującej wartości przynajmniej raz w danym obszarze zastosowania. Relacje nieodkryte w trakcie eksploracji brakujących danych mogą mieć wartość historyczną w konstruowaniu lepszych modeli prognoz brakujących danych na przyszłość.

AJKOER
źródło