Te dwa razy wyjaśniłem wiele razy. Nadal gotują mój mózg. Brakujące w losowo ma sens bycia, a brakujące całkowicie w losowym ma sens ... to brakujące w losowy sposób nie ma aż tak wielkiego znaczenia.
Co powoduje powstanie danych, które byłyby MAR, ale nie MCAR?
missing-data
Fomite
źródło
źródło
Odpowiedzi:
Brakujące losowo (MAR) oznacza, że brak można wyjaśnić zmiennymi, na temat których masz pełne informacje. Nie jest to możliwe do przetestowania założenie, ale są przypadki, w których jest to uzasadnione vs.
Weźmy na przykład ankiety polityczne. Wiele osób odmawia odpowiedzi. Jeśli założysz, że powody odmowy odpowiedzi są całkowicie oparte na danych demograficznych, a jeśli masz te dane demograficzne na każdej osobie, to dane to MAR. Wiadomo, że niektóre z powodów, dla których ludzie odmawiają odpowiedzi, mogą wynikać z danych demograficznych (na przykład osoby o niskich i wysokich dochodach mają mniejsze szanse na odpowiedź niż osoby w środku), ale tak naprawdę nie ma sposobu, aby się dowiedzieć, czy to jest pełne wyjaśnienie.
Pytanie brzmi: „czy jest wystarczająco pełne?”. Często metody takie jak wielokrotna imputacja działają lepiej niż inne metody, o ile danych nie brakuje bardzo przypadkowo.
źródło
Amelia
,mi
, imice
. Podobieństwa i różnice są fascynujące. (Amelia
„Sover impute
jest dość interesująca.)Nie jestem pewien, czy jest to poprawne, ale starałem się to zrozumieć tak, jakby istniała macierz możliwości 2x2, która nie jest całkiem symetryczna. Coś jak:
Oznacza to, że jeśli istnieje wzorzec braku zmiennej, a dane, które mamy, nie mogą tego wyjaśnić, mamy MNAR, ale jeśli dane, które mamy (tj. Inne zmienne w naszym zestawie danych) mogą to wyjaśnić, mamy MAR. Jeśli brakuje brakującego wzoru, to jest to MCAR.
Mogę być daleko stąd. Ponadto pozostawia to otwartą definicję „Wzorca” i „Dane wyjaśnia”. Myślę, że „Dane objaśniają”, co oznacza, że wyjaśniają je inne zmienne w twoim zestawie danych, ale uważam, że twoja procedura może to również wyjaśnić (np. Dobrym przykładem w innym wątku jest, jeśli masz trzy zmienne pomiarowe, które mierzą to samo, a twoje procedura polega na tym, że pierwsze dwa pomiary nie zgadzają się zbyt mocno, wykonując trzeci pomiar).
Czy to wystarcza do intuicji, CV?
źródło
Próbowałem też zrozumieć różnicę, więc może niektóre przykłady mogłyby pomóc.
MCAR : Brakuje całkowicie losowo , to świetnie. Oznacza to, że brak odpowiedzi jest całkowicie losowy. Twoja ankieta nie jest stronnicza.
MAR : Brakuje przypadkowej , gorszej sytuacji. Wyobraź sobie, że prosisz o IQ i masz znacznie więcej kobiet niż mężczyzn. Na szczęście dla ciebie, IQ nie jest związany z płcią, więc możesz kontrolować płeć (zastosować ważenie), aby zmniejszyć stronniczość.
MNAR : Nie brakuje losowo , źle. Zastanów się nad ankietą dotyczącą poziomu dochodów. I znowu, masz więcej kobiet niż mężczyzn. W tym przypadku jest to problem, ponieważ poziom dochodów jest związany z płcią. Dlatego twoje wyniki będą stronnicze. Niełatwo się go pozbyć.
Widzisz, jest to „trójkątny” związek między zmienną docelową (Y, np. Dochód), zmienną pomocniczą (X, np. Wiek) i zachowaniem odpowiedzi (R, grupa odpowiedzi). Jeśli X jest związany tylko z R, good-ish (MAR). Jeśli istnieje zależność między X i R oraz X i Y, to jest zły (MNAR).
źródło