Mam dwie zmienne jakościowe / nominalne. Każda z nich może przyjąć tylko dwie różne wartości (więc mam w sumie 4 kombinacje).
Każda kombinacja wartości zawiera zestaw wartości liczbowych. Mam więc 4 zestawy liczb. Żeby było bardziej konkretnie, powiedzmy, że mam male / female
i young / old
jako zmienne nominalne i mam weight
jako zależne liczbowe „wyjście”.
Wiem, że przejście od male
do female
zmienia średnią wagę i zmiany te są statystycznie znaczące. Więc mogę obliczyć gender
współczynnik. To samo dotyczy age
zmiennej. Wiem, że przejście od young
do old
zmienia średnią wagę i mogę obliczyć odpowiedni age
współczynnik.
Teraz naprawdę chcę zobaczyć, czy dane dowodzą, że przejście od młodych kobiet do starych mężczyzn jest czymś więcej niż kombinacją czynników płci i wieku. Innymi słowy, chcę wiedzieć, czy dane dowodzą, że istnieją „efekty 2D” lub, innymi słowy, że wpływ wieku i płci nie jest niezależny. Na przykład, może być tak, że starzenie się u mężczyzn zwiększa wagę o współczynnik 1,3, a dla kobiet odpowiedni współczynnik wynosi 1,1.
Oczywiście mogę obliczyć dwa wymienione czynniki (współczynnik wieku dla mężczyzn i współczynnik wieku dla kobiet) i są one różne. Ale chcę obliczyć statystyczną istotność tej różnicy. Jak realna jest ta różnica.
Jeśli to możliwe, chciałbym wykonać test nieparametryczny. Czy można zrobić to, co chcę, mieszając cztery zestawy, tasując je, dzieląc i obliczając coś.
Odpowiedzi:
Istnieją nieparametryczne testy interakcji. Z grubsza mówiąc, zastępujesz obserwowane wagi ich stopniami i traktujesz wynikowy zestaw danych jako heteroskedastyczną ANOVA. Patrz np. „Metody nieparametryczne w projektach czynnikowych” Brunnera i Puri (2001).
Jednak rodzaj interakcji nieparametrycznej, którą jesteś zainteresowany, nie może być pokazany w tej ogólności. Powiedziałeś:
To drugie jest niemożliwe. Interakcja nieparametryczna musi pociągać za sobą zmianę znaku, tj. Starzenie się zwiększa masę mężczyzn, ale zmniejsza masę kobiet. Taka zmiana znaku pozostaje, nawet jeśli monotonicznie przekształcisz wagi. Ale możesz wybrać monotonną transformację danych, która odwzorowuje wzrost masy o współczynnik 1.1 tak blisko, jak chcesz 1.3. Oczywiście nigdy nie wykażesz, że różnica jest znacząca, jeśli może być tak blisko, jak chcesz.
Jeśli naprawdę interesują Cię interakcje bez zmiany znaku, powinieneś trzymać się zwykłej analizy parametrycznej. Tam monotonne przekształcenia, które „połykają różnicę”, są niedozwolone. Oczywiście jest to znowu coś, o czym należy pamiętać, modelując i interpretując statystyki.
źródło
Jeśli uważasz, że wpływ wieku i płci jest czymś więcej niż efekt indywidualny, możesz rozważyć model γw e i gh tja= α ⋅ a gmija+ β⋅ ge n de rja+ γ⋅ ( ge n de rja⋅ a gmija) . γ współczynnik oddaje wielkość efektu „2D” wieku i płci. Możesz sprawdzić statystykę t aby z grubsza zorientować się, czy γ obserwowana w twoim modelu różni się znacznie od γ = 0 .γ γ γ= 0
Oto bardzo szorstki graficzny przykład, aby pokazać, co ten dodatkowy termin mnożnikowy nie.sole n de rja⋅ a gmija
W modelu , to zasadniczo próbują dopasować prosty hiperpłaszczyznę z danymir e s p o n s e = x1+ x2)
Jest to model liniowy na współzmiennych, stąd liniowy kształt widoczny na powyższym wykresie.
Z drugiej strony, model jest nieliniowy w x 1 i x 2, a zatem pozwala na pewien poziom krzywiznyr e s p o n s e = x1+ x2)+ x1⋅ x2) x1 x2
Nie odrzucenie hipotezy, że jest jak odrzucenie, że w modelu występuje pewna krzywizna tej formy.γ=0
Jeśli chodzi o test nieparametryczny, możesz zrobić coś zgodnie z tym, co zasugerowałeś, uzyskując standardowe błędy ładowania początkowego dla . Oznacza to, że kilka razy: 1) Przykłady danych z wymianą, 2) przeliczyć tryb liniowy, 3) otrzymanie szacunku y . Po wielu szacunków y , można skorzystać z 50 ± p % kwantyl założyć nieparametrycznego 2 p % przedział ufności dla y . Aby uzyskać więcej informacji na ten temat, Google „Standardowe błędy ładowania początkowego”.γ γ^ γ^ 50±p% 2p% γ
źródło
Jak zauważyli inni, można to modelować liniowo za pomocą interakcji. Wchodzisz w interakcję z dwoma manekinami i nie ma w tym nic nieliniowego. Biorąc pod uwagę model: Efektem krańcowym „płci” jest pochodna cząstkowa:
Widzisz, jak jeśli płeć i wiek mogą przyjmować wartości 0 lub 1, to zasadniczo patrzymy tylko na różnicę średnich dla czterech różnych grup? Oznacza to, że tylko cztery różne kombinacje można podłączać do powyższego równania (1), i g e = 0 , (2) g e n d e r = 1 i g e = 1 , (3), g e n d e r = 0 i g egender=0 age=0 gender=1 age=1 gender=0 , i (4), g e n d e r = 1 i g e = 0 . Zatem twój konkretny przykład jest równoważny porównaniu czterech średnich grupowych.age=1 gender=1 age=0
Pomocne może być także zapoznanie się z tą dyskusją, aby zrozumieć, w jaki sposób powyższe jest równoważne ANOVA z dwiema zmiennymi nominalnymi oddziałującymi. Jako kolejny sposób na potwierdzenie faktu, że na twoim konkretnym przykładzie (ponownie, ponieważ istnieją tylko cztery możliwe kombinacje wieku i płci), moglibyśmy również określić model podobny do poniższego, bez wyraźnego terminu interakcji:
W przypadku, gdy jest pomijana jako kategoria odniesienia, i na przykład współczynnik b 1 będzie różnicą średnich między o l d . f e m o l e a y o, U n g . m a l e . Gdzie punkt przecięcia α będzie również równy średniej w t w ciągu o l d . f eold.female b1 old.female young.male α wt (ponownie kategoria odniesienia).old.female
Wypróbuj to z własnymi danymi. Dzięki modelowi liniowemu z interakcją, ANOVA z interakcją lub użyciu manekinów dla każdej grupy bez interakcji, otrzymasz takie same wyniki. Całkiem fajnie, co? Książka statystyk może omawiać każdą z tych metod w innym rozdziale ale wszystkie drogi prowadzą do Rzymu. Naprawdę, sprawdzenie, jak to działa z własnymi danymi, jest jednym z najlepszych sposobów na naukę.…
Powyższe przykłady są więc zbyt skomplikowanym sposobem na wyciągnięcie tego wniosku (że tak naprawdę porównujemy tylko cztery średnie grupowe), ale myślę, że dla poznania sposobu działania interakcji jest to pomocne ćwiczenie. Istnieją inne bardzo dobre posty w CV na temat interakcji zmiennej ciągłej ze zmienną nominalną lub interakcji dwóch zmiennych ciągłych. Mimo że twoje pytanie zostało zredagowane w celu określenia testów nieparametrycznych, myślę, że warto przemyśleć problem z bardziej konwencjonalnego (tj. Parametrycznego) podejścia, ponieważ większość nieparametrycznych podejść do testowania hipotez ma tę samą logikę, ale ogólnie mniej założeń dotyczących określonych rozkładów.
Pomijając „znaczące” interakcje
Przykład działania
Porównajmy wyniki z modelu interakcji z wynikami testu Dunna. Najpierw wygenerujmy dane, w których (a) mężczyźni ważą więcej niż kobiety, (b) młodsi mężczyźni ważą mniej niż starsi mężczyźni, oraz (c) nie ma różnicy między młodszymi i starszymi kobietami.
Potrzebujesz obliczyć standardowy błąd lub przedział ufności dla efektu krańcowego? Pakiet „efektów”, o którym mowa powyżej, może to dla ciebie zrobić, ale jeszcze lepiej, Aiken i West (1991) podają formuły, nawet w przypadku znacznie bardziej skomplikowanych modeli interakcji. Ich tabele są dogodnie wydrukowane tutaj , wraz z bardzo dobrym komentarzem Matta Goldera.
Teraz zaimplementuj test Dunna.
Wartość p wyniku testu chi-kwadrat Kruskala-Wallisa sugeruje, że co najmniej jedna z naszych grup „pochodzi z innej populacji”. W przypadku porównań grup po grupach najwyższą liczbą jest statystyka testu Dunna z, a dolna liczba to wartość p, która została skorygowana dla wielu porównań. Ponieważ nasze przykładowe dane były raczej sztuczne, nic dziwnego, że mamy tak wiele małych wartości p. Zwróć jednak uwagę na porównanie w prawym dolnym rogu między młodszymi i starszymi kobietami. Test poprawnie potwierdza hipotezę zerową, że nie ma różnicy między tymi dwiema grupami.
AKTUALIZACJA: Biorąc pod uwagę inne odpowiedzi, odpowiedź została zaktualizowana, aby zakwestionować pomysł, że wymaga to jakiejkolwiek formy modelowania nieliniowego lub że - biorąc pod uwagę konkretny przykład dwóch binarnych zmiennych towarzyszących, tj. Czterech grup - że musi istnieć zmiana znaku, aby ocenić to nieparametrycznie. Gdyby na przykład wiek był ciągły, istniałyby inne sposoby podejścia do tego problemu, ale nie był to przykład podany przez OP.
źródło
Masz więc te losowe zmienne:
I masz następujące funkcje masy / gęstości prawdopodobieństwa:
Jednak nie znasz prawdziwych wspólnych plików PDF powyżej. Ponieważ chcesz ograniczyć się do metod nieparametrycznych, Twoim zadaniem jest znalezienie tych szacunków nieparametrycznych:
A następnie pokaż, że:
źródło
To sprawdzałoby efekty interakcji . Modelowanie liniowe byłoby w stanie sprawdzić takie rzeczy, ale nie jest to parametryczne, więc myślę, że należy użyć innego narzędzia.
Jak ty sprawdzanie
age
igender
działanie, aż do teraz?EDYCJA: Ta odpowiedź wygląda, jakby ci pomogła
źródło