Wpływ na błąd systematyczny w odpowiedziach na ankietę

9

Mam dużą ankietę, w której zapytano uczniów, między innymi, o poziom wykształcenia ich matki. Niektórzy pominęli to, a niektórzy odpowiedzieli błędnie. Wiem o tym, ponieważ tam była próba częściowa pierwotnych respondentów matki, która została później przesłuchana i zadała to samo pytanie. (Jestem pewien, że z odpowiedziami matek wiąże się również mniejszy błąd).

Moim wyzwaniem jest zdecydowanie, jak najlepiej wykorzystać to drugie, bardziej niezawodne źródło danych. Przynajmniej mogę go użyć do inteligentniejszego przypisywania brakujących danych, niż byłbym w stanie, gdybym mógł polegać tylko na kompletnych przypadkach. Ale jeśli 3/4 dzieci, których dane mogę sprawdzić krzyżowo, które odpowiadają „Moja matka nigdy nie ukończyła szkoły podstawowej” zaprzecza odpowiedzi ich matki, wydaje się, że powinienem użyć imputacji do stworzenia wielu zbiorów danych, aby uchwycić niepewność. [dodał: Powiedziałem 3/4, żeby coś powiedzieć, ale teraz, gdy sprawdziłem dane, równie dobrze mogę powiedzieć, że blisko 40% jest rozbieżnych]

Będę osobiście wykorzystywać edukację matki jako predyktora w modelu mieszanym, ale jeśli ktoś ma coś do powiedzenia na temat innych sytuacji, chciałbym się o nich również dowiedzieć.

Bardzo chciałbym otrzymywać porady w broadstrokes lub w szczegółach. Dziękuję Ci!

Aktualizacja : Na razie pozostawiam pytanie nierozwiązane, choć doceniam odpowiedzi Willa i Conjugate_Prior, mam nadzieję na bardziej szczegółowe i techniczne informacje zwrotne.

Poniższy wykres rozrzutu da ci wyobrażenie o tym, jak te dwie zmienne są powiązane w 10.000 przypadków, w których obie istnieją. Są one zagnieżdżone w ponad 100 szkołach. Korelują one przy 0,78, Odpowiedź Studenta - średnia: 5,12 sd = 2,05, odpowiedź mamy, średnia = 5,02, sd = 1,92 Brak odpowiedzi studenta w około 15% przypadków.

wprowadź opis zdjęcia tutaj

Michael Bishop
źródło
Z ciekawości, czy pierwszą odpowiedzią było pytanie edukacyjne „Moja matka nigdy nie ukończyła szkoły podstawowej”? Jeśli tak, martwię się o dokładność pozostałych wyników testu dla tych osób.
Michelle
„Jak daleko posunęła się w szkole?” - 1) Klasa ósma lub mniejsza
Michael Bishop
Prawdopodobnie masz grupę badanych, którzy zaznaczyli opcję pierwszej odpowiedzi na każde pytanie. Czy możesz to sprawdzić?
Michelle
Ta fabuła jest bardzo wnikliwa. Wygląda dość symetrycznie, co nie jest tym, czego można by się spodziewać, gdyby w rzeczywistości grupa dzieciaków odhaczyła pierwszą odpowiedź. Gdyby tak było, skrzynie miałyby tendencję do skupiania się wzdłuż dolnego rzędu. Oczywiście „wyglądający” symetryczny tak naprawdę nie gwarantuje, że jest, ale to dobry początek. Zgodna jest również silna korelacja między reakcją matki i dziecka.
Czy
1
Ahh Widzę. Wówczas byłbym (więcej niż trochę) niechętny przypisywaniu istniejących danych i zalecałbym,
conjugateprior

Odpowiedzi:

2

Pierwszą rzeczą, na którą należy zwrócić uwagę, jest to, że zmienne są następujące: „co uczeń powiedział o edukacji matki” i „co matka ucznia powiedziała o edukacji matki”. Nazwij je odpowiednio S i M. i oznacz niezauważony prawdziwy poziom wykształcenia matki jako T.

W S i M brakowało wartości i nie ma nic złego (modulo obserwacja poniżej) z umieszczeniem M i S w modelu imputacji, ale tylko z wykorzystaniem jednej z nich w kolejnej analizie. Odwrotna sytuacja zawsze byłaby niewskazana.

Jest to odrębne od trzech innych pytań:

  1. Czy brakująca wartość oznacza, że ​​uczniowie nie wiedzą lub nie chcą tyle mówić o swoich matkach?
  2. Jak korzystać z S i M, aby dowiedzieć się o T?
  3. Czy masz właściwy rodzaj zaginięcia, aby umożliwić wielokrotne przypisanie do pracy?

Niewiedza i brak

Być może interesuje Cię T, ale nie musisz: postrzeganie osiągnięć edukacyjnych (poprzez S i ewentualnie M) lub brak wiedzy uczniów może być bardziej przyczynowo interesujący niż sama T. Imputacja może być sensowną drogą dla pierwszej, ale może, ale nie musi, być dla drugiej. Musisz zdecydować.

Poznanie T

Załóżmy, że faktycznie interesuje Cię T. Wobec braku złotego standardowego pomiaru (ponieważ czasami wątpisz w M), trudno jest wiedzieć, w jaki sposób możesz bez arbitrażu połączyć S i M, aby dowiedzieć się o T. Jeśli, z drugiej strony, byłeś chcąc traktować M jako poprawną, gdy jest ona dostępna, możesz użyć S do przewidywania M w modelu klasyfikacyjnym, który zawiera inne informacje od uczniów, a następnie użyć M zamiast S w końcowej analizie. W tym przypadku chodziłoby o stronniczość selekcji w przypadkach, w których trenowałeś, co prowadzi do trzeciego problemu:

Brak

To, czy wielokrotna imputacja może zadziałać, zależy od tego, czy danych brakuje całkowicie losowo (MCAR), czy brakuje losowo (MAR). Czy losowo brakuje S (MAR)? Być może nie, ponieważ uczniowie mogą wstydzić się odpowiedzieć na brak wykształcenia swojej matki i pominąć pytanie. Wtedy sama wartość określa, czy jej nie będzie, a wielokrotne przypisanie nie może tutaj pomóc. Z drugiej strony, jeśli niskie covaries edukacja z czymś, co jest zadane i częściowo odpowiedzieć w badaniu np jakiś wskaźnik dochodów, następnie MAR mogą być bardziej rozsądne i wielokrotne przypisanie ma coś, aby uzyskać przyczepność na. Czy losowo brakuje M? Obowiązują te same rozważania.

Wreszcie, nawet jeśli interesujesz się T i podejmiesz klasyfikację, nadal będziesz chciał przypisać to dopasowanie do tego modelu.

sprzężonyprior
źródło
1

Jeśli zamierzasz założyć, że „wskaźnik sprzeczności” jest taki sam dla całej próbki, jak dla podpróbki, której matki zostały odpytane, podpróbka musi być losowana. W swoim opisie nie mówisz, więc podnoszę ten problem, ponieważ uważam, że ma to istotne implikacje dla tego, w jaki sposób lub czy możesz skorzystać z tych informacji z podpróbki, aby wyciągnąć wnioski na temat całej próby uczniów.

Wydaje mi się, że istnieją trzy aspekty tej sprzeczności.

1 to wskaźnik sprzeczności. Czy to prawda, że ​​3/4 uczniów zgadło źle?

2 to stopień zła - jedną rzeczą jest powiedzieć, że twoja matka nigdy nie ukończyła szkoły podstawowej, kiedy faktycznie ją ukończyła, ale się tam zatrzymała, a jeszcze inna, że ​​nigdy nie ukończyła szkoły podstawowej, kiedy ma doktorat.

3 to część próbki, którą można sprawdzić krzyżowo. Jeśli wyciągasz te wnioski z podpróbki 20, założę się, że szacunki są dość niestabilne i prawdopodobnie niewiele warte.

Wydaje mi się, że to, co zrobisz, będzie zależeć od twojej odpowiedzi na te pytania i pytania, które postawiłem na początku. Na przykład, jeśli 1 jest dość wysoki, a 3 jest dość wysoki, mógłbym po prostu użyć podpróbki i skończyć z tym. Jeśli 1 jest wysoki, ale 2 jest niski, problem nie wydaje się taki zły i, znowu, może nie warto się tym przejmować.

Prawdopodobnie warto również wiedzieć, czy błąd jest przypadkowy, czy systematyczny. Jeśli uczniowie mają tendencję do systematycznego niedoceniania wykształcenia swojej matki, jest to bardziej problematyczne niż wtedy, gdy czasami popełniają błąd.

Dokonałem imputacji na kilku dokumentach i wydaje mi się, że w rezultacie zawsze przysparzam sobie więcej problemów. Recenzenci, przynajmniej w moim obszarze, często nie mają dobrego podejścia do tej metody i dlatego są podejrzliwi wobec jej zastosowania. Czuję, że czasem lepiej jest, z punktu widzenia publikacji, po prostu uznać problem i przejść dalej. Ale w tym przypadku tak naprawdę nie „przypisujesz brakujących danych”, ale wprowadzasz pewną przewidywaną wariancję błędu dla zmiennej. To bardzo interesujące pytanie i odkładając na bok wszystkie obawy, nie jestem nawet pewien, jak bym to zrobił, gdybym zdecydował, że to najlepszy sposób działania

Będzie
źródło
1
Dzięki Will, wyjaśniłem niektóre rzeczy w moim oryginalnym poście. Podpróbka jest losowa. Wyjąłem statystykę 3/4 z kapelusza, aby wskazać punkt. Prawdziwa statystyka jest mniejsza. Mogę sprawdzić około 10 000 przypadków. Jestem pewien, że błąd nie jest wyłącznie przypadkowy.
Michael Bishop