Miller i Chapman (2001) twierdzą, że absolutnie niewłaściwe jest kontrolowanie zmiennych niezależnych, które są powiązane zarówno ze zmiennymi niezależnymi, jak i zależnymi w badaniu obserwacyjnym (nierandomizowanym) - mimo że jest to rutynowo wykonywane w naukach społecznych. Jak problematyczne jest to zrobić? Jak najlepiej poradzić sobie z tym problemem? Jeśli rutynowo kontrolujesz nie-niezależne zmienne towarzyszące w badaniu obserwacyjnym we własnych badaniach, jak to uzasadnisz? Wreszcie, czy jest to walka, którą warto wybrać, gdy dyskutujesz o metodologii z kolegami (tj. Czy to naprawdę ma znaczenie)?
Dzięki
Miller, GA i Chapman, JP (2001). Niezrozumienie analizy kowariancji. Journal of Abnormal Psychology, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf
źródło
Odpowiedzi:
Jest to tak samo problematyczne jak stopień korelacji.
Ironią jest to, że nie zawracałbyś sobie głowy kontrolowaniem, gdyby nie było oczekiwanej korelacji z jedną ze zmiennych. A jeśli oczekujesz, że twoja niezależna zmienna wpłynie na twoją zależną, to koniecznie jest ona w pewnym stopniu skorelowana z obiema. Jeśli jednak są one silnie skorelowane, być może nie powinieneś nad nimi panować, ponieważ jest to równoznaczne z kontrolowaniem rzeczywistej zmiennej niezależnej lub zależnej.
źródło
W naukach społecznych często nazywamy ten problem „uprzedzeniem po leczeniu”. Jeśli zastanawiasz się nad efektem jakiegoś leczenia (zmienna niezależna), w tym zmiennymi, które powstają po leczeniu (w sensie przyczynowym), to twoje oszacowanie efektu leczenia może być stronnicze. Jeśli uwzględnisz te zmienne, w pewnym sensie kontrolujesz wpływ leczenia. Jeśli leczenie T powoduje wynik Y, a inna zmienna A i A powoduje Y, wówczas kontrola dla A ignoruje wpływ, jaki T wywiera na Y przez A. To odchylenie może być dodatnie lub ujemne.
W naukach społecznych może to być szczególnie trudne, ponieważ A może powodować T, co wiąże się z A, a A i T oba powodują Y. Na przykład wysoki PKB może prowadzić do wysokiego poziomu demokratyzacji (nasze leczenie), co prowadzi do powiedzmy, że wyższy PKB, wyższy PKB i wyższa demokratyzacja prowadzą do zmniejszenia korupcji w rządzie. Ponieważ PKB powoduje demokratyzację, jeśli tego nie kontrolujemy, mamy problem endogeniczności lub „tendencyjność pominiętych zmiennych”. Ale jeśli kontrolujemy PKB, mamy uprzedzenia po leczeniu. Poza przypadkowymi próbami, gdy tylko możemy, niewiele możemy zrobić, aby sterować naszym statkiem między Scyllą a Charybdą. Gary King mówi o tych kwestiach jako o swojej nominacji do inicjatywy Harvarda „Najtrudniejsze nierozwiązane problemy w naukach społecznych” tutaj .
źródło
Moim zdaniem istnieją dwa podstawowe problemy z badaniami obserwacyjnymi, które „kontrolują” szereg niezależnych zmiennych. 1) Masz problem z pominięciem zmiennych objaśniających, a tym samym błędnej specyfikacji modelu. 2) Masz problem z wieloma skorelowanymi zmiennymi niezależnymi - problem, który nie istnieje w (dobrze) zaprojektowanych eksperymentach - oraz fakt, że współczynniki regresji i testy współzmiennych ANCOVA oparte są na częściach cząstkowych, co czyni je trudnymi do interpretacji. Pierwszy jest nieodłączny od charakteru badań obserwacyjnych i jest poruszany w kontekście naukowym oraz w procesie konkurencyjnego opracowywania. Ta ostatnia jest kwestią edukacji i polega na jasnym zrozumieniu modeli regresji i ANCOVA oraz dokładnie na tym, co reprezentują te współczynniki.
W odniesieniu do pierwszego zagadnienia łatwo jest wykazać, że jeśli wszystkie wpływy na niektóre zmienne zależne są znane i uwzględnione w modelu, statystyczne metody kontroli są skuteczne i dają dobre prognozy i szacunki skutków dla poszczególnych zmiennych. Problem w „naukach miękkich” polega na tym, że wszystkie istotne wpływy są rzadko uwzględniane lub nawet znane, a zatem modele są słabo określone i trudne do interpretacji. Istnieje jednak wiele wartościowych problemów w tych dziedzinach. Odpowiedzi po prostu nie mają pewności. Piękno procesu naukowego polega na tym, że jest on samokorekty, a modele są kwestionowane, opracowywane i udoskonalane. Alternatywą jest zasugerowanie, że nie możemy badać tych problemów naukowo, gdy nie możemy zaprojektować eksperymentów.
Druga kwestia to kwestia techniczna w naturze modeli ANCOVA i regresji. Analitycy muszą wyjaśnić, co reprezentują te współczynniki i testy. Korelacje między zmiennymi niezależnymi wpływają na współczynniki regresji i testy ANCOVA. Są to testy częściowe. Modele te pobierają wariancję danej zmiennej niezależnej i zmiennej zależnej, które są powiązane ze wszystkimi innymi zmiennymi w modelu, a następnie badają związek w tych resztach. W rezultacie indywidualne współczynniki i testy są bardzo trudne do interpretacji poza kontekstem jasnego pojęciowego zrozumienia całego zestawu zmiennych i ich wzajemnych powiązań. Nie stwarza to jednak żadnych problemów z prognozowaniem - zachowaj ostrożność przy interpretacji określonych testów i współczynników.
Uwaga dodatkowa: ta ostatnia kwestia jest związana z problemem omówionym wcześniej na tym forum dotyczącym odwracania znaków regresji - np. Z ujemnego na dodatni - gdy inne predyktory są wprowadzane do modelu. W obecności skorelowanych predyktorów i bez jasnego zrozumienia wielorakich i złożonych zależności między całym zestawem predyktorów, nie ma powodu OCZEKIWAĆ (z natury częściowego) współczynnika regresji na określony znak. Kiedy istnieje mocna teoria i jasne zrozumienie tych wzajemnych powiązań, takie „odwrócenie” znaków może być pouczające i teoretycznie przydatne. Chociaż, biorąc pod uwagę złożoność wielu problemów nauk społecznych, wystarczające zrozumienie nie byłoby powszechne, oczekiwałbym.
Oświadczenie: Jestem z wykształcenia socjologiem i analitykiem polityki publicznej.
źródło
Przeczytałem pierwszą stronę ich artykułu, więc mogłem nie rozumieć ich sensu, ale wydaje mi się, że w zasadzie omawiają problem uwzględnienia w analizie zmiennych niezależnych od wielu kolin. Przyjęty przez nich przykład wieku i klasy ilustruje tę ideę, stwierdzając, że:
ANCOVA jest regresją liniową z poziomami reprezentowanymi jako zmienne obojętne, a zmienne towarzyszące pojawiają się również jako zmienne niezależne w równaniu regresji. Tak więc, chyba że źle zrozumiałem ich punkt widzenia (co jest całkiem możliwe, ponieważ nie przeczytałem całkowicie ich pracy), wydaje się, że mówią oni „nie uwzględniaj współzmiennych zależnych”, co jest równoważne stwierdzeniu, że unikaj zmiennych wielokoliniowych.
źródło
(Największym) problemem jest to, że ponieważ zmienne grupowe i zmienne towarzyszące znajdują się razem po stronie predykcyjnej równania, zmienne grupowe nie są już zmiennymi grupowymi, więc są tymi zmiennymi, dla których zmienna towarzysząca jest podzielona, więc nie są już rozpoznawalne ani interpretowalne jako zmienne grupy, o których myślałeś, że studiujesz. Ogromny problem.
Kluczowa linia znajduje się na str. 45 „ANCOVA usuwa znaczącą wariancję z„ Grupy ”, pozostawiając nieopisaną, szczątkową zmienną resztkową Grupy z niepewnym związkiem z konstrukcją reprezentowaną przez Grupę”.
Moje obecne rozwiązanie polega na częściowym wypisaniu współzmiennej z DV, a następnie przekazaniu pozostałego DV do zwykłej ANOVA, jako alternatywy dla użycia ANCOVA.
źródło
Niektóre z pasujących narzędzi opracowanych przez Gary'ego Kinga i współpracowników wyglądają obiecująco:
źródło