Kolinearność między zmiennymi kategorialnymi

11

Wiele jest o kolinearności w odniesieniu do predyktorów ciągłych, ale nie tak bardzo, że mogę znaleźć na predyktory jakościowe. Mam dane tego typu zilustrowane poniżej.

Pierwszy czynnik to zmienna genetyczna (liczba alleli), drugi czynnik to kategoria choroby. Najwyraźniej geny poprzedzają chorobę i są czynnikiem pokazującym objawy, które prowadzą do diagnozy. Jednak regularna analiza z wykorzystaniem sum kwadratów typu II lub III, jak to zwykle bywa w psychologii z SPSS, pomija efekt. Analiza sum kwadratów typu I podnosi ją po wprowadzeniu odpowiedniej kolejności, ponieważ jest ona zależna od kolejności. Ponadto prawdopodobnie będą istnieć dodatkowe elementy procesu chorobowego, które nie są związane z genem, które nie są dobrze identyfikowane z typem II lub III, patrz anova (lm1) poniżej vs lm2 lub Anova.

Przykładowe dane:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. lm1 z SS typu I wydaje mi się właściwym sposobem analizy danych, biorąc pod uwagę teorię tła. Czy moje założenie jest prawidłowe?
  2. Jestem przyzwyczajony do jawnego manipulowania projektami ortogonalnymi, w których problemy te zwykle nie pojawiają się. Czy trudno jest przekonać recenzentów, że jest to najlepszy proces (zakładając, że punkt 1 jest poprawny) w kontekście pola centrycznego SPSS?
  3. A co zgłosić w sekcji statystyk? Wszelkie dodatkowe analizy lub komentarze, które powinny się pojawić?
Matt Albrecht
źródło
Zaskakujące jest to, że ktoś używający SPSS zna tylko SS typu III lub II. I tak brzmisz.
ttnphns
2
Cóż, miałem tę samą lukę w wiedzy, o której mówię w moim pytaniu. Wydaje się, że bardziej odzwierciedla zainteresowania ludzi, wiedzę i sposób, w jaki wprowadzają się do oprogramowania, a nie do samego oprogramowania. Ale opcje domyślne odgrywają również dużą rolę, ponieważ w SPSS używana jest domyślna opcja typu III.
Matt Albrecht,
Wydaje się, że mówisz, że masz sposób na wprowadzenie 2 predyktorów w określonej kolejności przy użyciu procedury anova SPSS (unianova?). Znam tylko sposób na określenie kolejności poprzez przejście do procedury regresji. Jak to osiągasz?
rolando2

Odpowiedzi:

8

Kolinearność między czynnikami jest dość skomplikowana. Klasycznym przykładem jest ten, który otrzymujesz, grupując i kodując fałszywie trzy ciągłe zmienne „wiek”, „okres” i „rok”. Jest analizowany w:

Otrzymane współczynniki po usunięciu czterech (nie trzech) odniesień są identyfikowane tylko do nieznanego trendu liniowego. Można to przeanalizować, ponieważ kolinearność wynika ze znanej kolinearności zmiennych źródłowych (wiek + rok = okres).

Wykonano również pewne prace nad fałszywą kolinearnością między dwoma czynnikami. Zostało to przeanalizowane w:

Wynik jest taki, że kolinearność między zmiennymi kategorialnymi oznacza, że ​​zestaw danych musi być podzielony na rozłączone części, z poziomem odniesienia w każdym komponencie. Szacowanych współczynników z różnych składników nie można bezpośrednio porównać.

W przypadku bardziej skomplikowanych powiązań między trzema lub więcej czynnikami sytuacja jest skomplikowana. Istnieją procedury wyszukiwania funkcji szacunkowych, tj. Liniowe kombinacje współczynników, które są interpretowalne, np. W:

  • „O połączeniach projektów rzędów kolumn” autorstwa Godolphin i Godolphin w Utilitas Mathematica (60) str. 51–65

Ale o ile mi wiadomo, nie ma ogólnej srebrnej kuli do obsługi takich kolinearności w intuicyjny sposób.

Simen Gaure
źródło
1

Po rozmowie z niektórymi statystykami ludzie z całego miejsca. Wydaje się, że tego rodzaju pytanie może nie być najbardziej poprawnym pytaniem. Użycie ANOVA (lub podobnych metod) do badania interakcji genetycznych i diagnostycznych przy pomocy środków neuropsychologicznych, gdy są one silnie skorelowane, jest trudnym pytaniem. Zamiast tego wskazano mi na zbadanie struktury danych za pomocą modelowania równań strukturalnych.

Ta odpowiedź zostanie zaktualizowana, gdy dowiem się więcej o SEM.

Matt Albrecht
źródło