Opracowałem model logit do zastosowania w sześciu różnych zestawach danych przekrojowych. Próbuję odkryć, czy nastąpiły zmiany w merytorycznym wpływie danej zmiennej niezależnej (IV) na zmienną zależną (DV) sterującą innymi wytłumaczeniami w różnych momentach i czasie.
Moje pytania to:
- Jak ocenić zwiększony / zmniejszony rozmiar w związku między IV a DV?
- Czy mogę po prostu spojrzeć na różne wielkości (rozmiary) współczynników w różnych modelach, czy też muszę przejść przez jakiś inny proces?
Jeśli muszę zrobić coś innego, co to jest i czy można to zrobić / jak to zrobić w SPSS?
Również w ramach jednego modelu
- Czy mogę porównać względny rozmiar zmiennych niezależnych na podstawie niestandardowych wyników, jeśli wszystkie mają kod 0-1, czy też muszę je przekonwertować na standardowe wyniki?
- Czy występują problemy ze znormalizowanymi wynikami?
Odpowiedzi:
Skoncentruję się głównie na twoich pierwszych trzech pytaniach. Krótkie odpowiedzi to: (1) musisz porównać wpływ IV na DV dla każdego okresu, ale (2) tylko porównanie wielkości może prowadzić do błędnych wniosków, oraz (3) istnieje wiele sposobów, aby to zrobić, ale brak konsensusu co do tego, który z nich jest poprawny.
Poniżej opisuję, dlaczego nie można po prostu porównać wielkości współczynników i wskazać kilka rozwiązań, o których dotąd myślano.
Według Allison (1999), w przeciwieństwie do OLS, na współczynniki regresji logistycznej wpływa nieobserwowana heterogeniczność, nawet jeśli taka heterogeniczność nie jest związana ze zmienną będącą przedmiotem zainteresowania.
Po dopasowaniu regresji logistycznej, takiej jak:
(1)
Wynika to z faktu, że porównania mogą prowadzić do niepoprawnych wniosków, jeśli nieobserwowana różnica różni się między grupami, krajami lub okresami. Oba porównania wykorzystujące różne modele i wykorzystujące terminy interakcji w tym samym modelu cierpią z powodu tego problemu. Oprócz logit, dotyczy to również jego kuzynów probit, clog-log, cauchit, a przez to dyskretnych modeli zagrożeń czasowych oszacowanych za pomocą tych funkcji łącza. Wpływa to również na uporządkowane modele logit.
Williams (2009) argumentuje, że rozwiązaniem jest modelowanie nieobserwowanej odmiany za pomocą heterogenicznego modelu wyboru (aka, model w skali lokalizacji) i zapewnia dodatek Stata, do którego jest to wymagane
oglm
(Williams 2010). W wersji R heterogeniczne modele wyboru mogą być dopasowane dohetglm()
funkcjiglmx
pakietu dostępnego za pośrednictwem CRAN. Oba programy są bardzo łatwe w użyciu. Na koniec Williams (2009) wspomina oPLUM
procedurze SPSS dopasowywania tych modeli, ale nigdy jej nie użyłem i nie mogę wypowiedzieć się na temat łatwości użycia.Istnieje jednak co najmniej jeden dokument roboczy pokazujący, że porównania przy użyciu heterogenicznych modeli wyboru mogą być jeszcze bardziej stronnicze, jeśli równanie wariancji jest źle określone lub występuje błąd pomiaru.
Mood (2010) wymienia inne rozwiązania, które nie wymagają modelowania wariancji, ale wykorzystują porównania przewidywanych zmian prawdopodobieństwa.
Najwyraźniej jest to problem, który nie został rozwiązany i często widzę artykuły na konferencjach mojej dziedziny (socjologii) wymyślające różne rozwiązania tego problemu. Radzę ci spojrzeć na to, co robią ludzie w twojej dziedzinie, a następnie zdecydować, jak sobie z tym poradzić.
Bibliografia
źródło
Czy występują zmiany w zestawach danych? Mogę odpowiedzieć na to, nie widząc danych! Tak. Tam są. Jak duże są? To jest klucz Dla mnie sposób patrzenia to patrzenie. Będziesz miał iloraz szans dla każdej niezależnej zmiennej dla każdego zestawu danych - czy różnią się w sposób, który ludzie uznają za interesujący? To prawda, że każdy będzie miał standardowy błąd i tak dalej, i prawdopodobnie istnieją sposoby, aby sprawdzić, czy statystycznie różnią się od siebie znacząco, ale czy to naprawdę interesujące pytanie? Jeśli tak, to jednym ze sposobów łatwego przetestowania go za pomocą oprogramowania byłoby połączenie wszystkich badań i włączenie „badania” jako innej niezależnej zmiennej. Możesz nawet przetestować interakcje, jeśli chcesz. To, czy chcesz to zrobić, zależy od twoich merytorycznych pytań.
Jeśli chodzi o porównywanie zmiennych w modelu, głównym problemem ze znormalizowanymi wynikami jest to, że są one znormalizowane na konkretnej próbie. Oszacowania parametrów i tak dalej dotyczą standardowych odchyleń zmiennych w konkretnej próbce. Nawet jeśli twoja próbka jest naprawdę próbką losową z jakiejś populacji, będzie miała (nieznacznie) różne odchylenia standardowe od innych losowych próbek. To powoduje zamieszanie.
Innym problemem jest to, co oznacza nawet pytanie o „względny rozmiar”. Jeśli twoje wartości IV są dobrze zrozumiałe, możesz porównać wartości OR w zakresach, które coś znaczą.
źródło
Guilherme ma pieniądze tutaj. Podczas gdy inne odpowiedzi są przydatne, należy pamiętać, że regresja logistyczna (i wszystkie regresje nieliniowe, takie jak Poisson, w tym przypadku) zasadniczo różnią się od regresji liniowej. Mogą występować poważne problemy ze współczynnikiem skalowania dziennika podczas uruchamiania tej samej analizy na sześciu różnych zestawach danych, a następnie przeprowadzania tej analizy na połączonym zestawie danych. Zmiany współczynników mogą nie mieć nic wspólnego ze znaczącymi różnicami (nawet jeśli są istotne statystycznie lub istotne istotnie). Mogą mieć wszystko, co dotyczy nieobserwowanej niejednorodności próbek. Musisz to absolutnie przetestować. Wielu (jeśli nie większość) badaczy w dziedzinie nauk społecznych i polityki ignoruje to. Guilherme podaje przełomowe artykuły na ten temat, na które polecam wszystkim. Sugestie Petersa są praktyczne, ale po prostu kodowanie zmiennej zastępczej dla próbki, z której pochodzą dane, nie rozwiąże tej heterogeniczności w współczynniku skalowania. Możesz to zrobić w regresji liniowej, a heterogeniczność nie powinna wpływać na twoje współczynniki, ale tutaj może.
Innym aspektem efektu nieobserwowanej heterogeniczności, unikalnym dla regresji logit vs. regresja liniowa, jest wpływ różnych regresorów w każdym zbiorze danych. Jeśli nie masz tych samych zmiennych lub prawdopodobne, że są mierzone inaczej, masz formę pominiętej zmienności. W przeciwieństwie do regresji liniowej, pominięta zmienna ortogonalna do kluczowego regresora może nadal wpływać na twoje oszacowanie. Jak ujmuje to Cramer:
Cramer wskazuje również, że szacunki współczynników są tendencyjne w dół przy pomijaniu zmiennej, częściowe pochodne nie są. Jest to dość skomplikowane i powinieneś przeczytać ten artykuł, aby uzyskać bardziej przejrzyste wyjaśnienie - chodzi o to, aby nie patrzeć wyłącznie na iloraz szans lub iloraz szans. Rozważ przewidywane prawdopodobieństwa i pochodne; zobacz komendę marginesów w Stata, aby uzyskać więcej informacji. JD Long ma tutaj artykuł, który szczegółowo opisuje.
Wreszcie istnieje wiele dokumentów, w których możesz Google omówić warunki interakcji w modelach logit. Rozumiem, że współczynnik logit interakcji jest traktowany jako wskazówka, ale nie jest ostateczny, szczególnie jeśli wolisz widzieć współczynniki jako wykładnicze iloraz szans. Lepiej jest spojrzeć na przewidywane prawdopodobieństwa i średni efekt krańcowy (ponownie, spójrz do dokumentacji komendy Stata dotyczącej marginesu dla logit, nawet jeśli używasz SPSS, to nadal będzie pomocne).
Nie znam się wystarczająco na SPSS, aby wiedzieć, w jaki sposób ten pakiet może poradzić sobie z tymi problemami, ale powiem to: kiedy zagłębisz się w takie głębsze problemy statystyczne, jest to wskazówka, że nadszedł czas, aby przejść do bardziej elastyczny, wyrafinowany pakiet jak Stata lub R.
źródło
Innym narzędziem, które może się przydać, jest znormalizowany współczynnik regresji lub przynajmniej zgrubna i gotowa pseudo-wersja. Możesz uzyskać jedną taką wersję, mnożąc uzyskany współczynnik przez odchylenie standardowe predyktora. (Istnieją inne wersje i niektóre debaty na temat najlepszej, np. Patrz Menard 2002, Applied Logistic Regression Analysis ( Google books )). To pozwoli ci ocenić siłę efektu we wszystkich badaniach.
źródło