Dopasowuję model wielokrotnej regresji liniowej między 4 zmiennymi kategorialnymi (z 4 poziomami każda) i danymi liczbowymi. Mój zestaw danych ma 43 obserwacje.
Regresja daje mi następujące wartości z testu dla każdego współczynnika nachylenia: . Tak więc współczynnik dla 4. predyktora jest istotny na poziomie ufności .
Z drugiej strony regresja daje mi wartość z ogólnego testu hipotezy zerowej, że wszystkie moje współczynniki nachylenia są równe zero. Dla mojego zestawu danych ta wartość wynosi .
Moje pytanie: jak mam interpretować te wyniki? Która -value powinienem użyć i dlaczego? Czy współczynnik dla czwartej zmiennej znacznie różni się od na poziomie ufności ?
Widziałem powiązane pytanie, i statystyk w regresji , ale tam sytuacja była przeciwieństwem: wysoka -test -values i niskie -test -value. Szczerze mówiąc, nie do końca rozumiem, dlaczego potrzebujemy testu oprócz testu aby sprawdzić, czy współczynniki regresji liniowej znacznie różnią się od zera.
Odpowiedzi:
Nie jestem pewien, czy tutaj dzieje się wielokoliniowość. Z pewnością może tak być, ale z podanych informacji nie mogę dojść do wniosku i nie chcę od tego zaczynać. Po pierwsze sądzę, że może to być problem wielokrotnych porównań. Oznacza to, że jeśli wykonasz wystarczającą liczbę testów, coś się pojawi, nawet jeśli nic tam nie ma.
Jednym z problemów, nad którymi się zastanawiam, jest to, że problem wielokrotnych porównań jest zawsze omawiany w kontekście badania wielu porównań parami - np. Przeprowadzanie testów t dla każdej unikalnej pary poziomów. (Zabawne podejście do wielu porównań, spójrz tutaj .) To sprawia, że ludzie mają wrażenie, że to jedyne miejsce, w którym pojawia się ten problem. Ale to po prostu nieprawda - problem wielokrotnych porównań pojawia się wszędzie. Na przykład, jeśli uruchomisz regresję z 4 zmiennymi objaśniającymi, występują te same problemy. W dobrze zaprojektowanym eksperymencie IV mogą być ortogonalne, ale ludzie rutynowo martwią się zastosowaniem poprawek Bonferroniego na zestawach kontrastów a-priori i ortogonalnych i nie zastanawiają się dwa razy nad czynnikową ANOVA. Moim zdaniem jest to niespójne.
Globalny test F to tak zwany test „jednoczesny”. Sprawdza to, czy wszystkie predyktory nie są powiązane ze zmienną odpowiedzi. Test równoczesny zapewnia pewną ochronę przed problemem wielokrotnych porównań bez konieczności podążania drogą Bonferroniego, która traci moc. Niestety, moja interpretacja tego, co zgłaszasz, jest taka, że masz zerowe stwierdzenie.
Kilka rzeczy łagodzi tę interpretację. Po pierwsze, mając tylko 43 dane, prawie na pewno nie masz dużej mocy. Jest całkiem możliwe, że istnieje prawdziwy efekt, ale nie można go rozwiązać bez większej ilości danych. Po drugie, podobnie jak @andrea i @Dimitriy, martwię się o zasadność traktowania 4-poziomowych zmiennych kategorialnych jako liczbowych. Może to nie być odpowiednie i może mieć dowolną liczbę efektów, w tym zmniejszenie zdolności wykrywania tego, co naprawdę tam jest. Wreszcie nie jestem pewien, czy testowanie istotności jest tak samo ważne, jak ludzie wierzą.p z .11 jest rodzaj niski; czy naprawdę coś się tam dzieje? może! kto wie? - nie ma „jasnej linii” na 0,05, która rozgranicza rzeczywiste efekty od samego wyglądu.
źródło
Chciałbym zasugerować, że to zjawisko (nieistotnego testu ogólnego pomimo znaczącej zmiennej indywidualnej) może być rozumiane jako rodzaj zagregowanego „efektu maskującego” i że, chociaż możliwe, że może wynikać z wielokoliniowych zmiennych objaśniających, nie musi tego robić to w ogóle. Okazuje się również, że nie wynika to z wielu korekt porównawczych. Tak więc odpowiedź ta dodaje pewne kwalifikacje do odpowiedzi, które już się pojawiły, co wręcz przeciwnie sugeruje, że winowajcami powinny być wielokliniowość lub wielokrotne porównania.
Aby ustalić wiarygodność tych twierdzeń, wygenerujmy zbiór idealnie ortogonalnych zmiennych - możliwie jak najbardziej nieliniowych - i zmienną zależną, która jest wyraźnie określona wyłącznie przez pierwsze objaśnienie (plus duża liczba błędów losowych niezależne od wszystkiego innego). W
R
tym można zrobić (odtwarzalnie, jeśli chcesz eksperymentować) jakNie ma znaczenia, że zmienne objaśniające są binarne; liczy się ich ortogonalność, którą możemy sprawdzić, aby upewnić się, że kod działa zgodnie z oczekiwaniami, co można zrobić, sprawdzając ich korelacje. Rzeczywiście, macierz korelacji jest interesująca : sugeruje, że małe współczynniki
y
mają niewiele wspólnego z dowolną zmienną, z wyjątkiem pierwszej (która jest z założenia), a zerowe przekątne potwierdzają ortogonalność zmiennych objaśniających:Uruchommy serię regresji , używając tylko pierwszej zmiennej, a następnie pierwszych dwóch i tak dalej. Dla zwięzłości i łatwego porównania, w każdym pokazuję tylko linię dla pierwszej zmiennej i ogólny test F:
Zobacz, jak (a) znaczenie pierwszej zmiennej prawie się nie zmienia, (a ') pierwsza zmienna pozostaje znacząca (p <0,05), nawet przy korekcie dla wielu porównań ( np. Zastosuj Bonferroni, mnożąc nominalną wartość p przez liczba zmiennych objaśniających), (b) współczynnik pierwszej zmiennej prawie się nie zmienia, ale (c) ogólne znaczenie rośnie wykładniczo, szybko zwiększając się do nieistotnego poziomu.
Interpretuję to jako wykazanie, że uwzględnienie zmiennych objaśniających, które są w dużej mierze niezależne od zmiennej zależnej, może „maskować” ogólną wartość p regresji. Gdy nowe zmienne są prostopadłe do istniejących i do zmiennej zależnej, nie zmienią poszczególnych wartości p. (Widoczne tutaj niewielkie zmiany są spowodowane tym, że dodany błąd losowy
y
jest przypadkowo skorelowany ze wszystkimi pozostałymi zmiennymi.) Jedną z lekcji, którą należy wyciągnąć z tego, jest to, że parsimony jest wartościowe : użycie tak małej liczby zmiennych, jak to konieczne, może wzmocnić znaczenie wyniki.Ja nie mówiąc, że to niekoniecznie dzieje się na zbiorze danych w kwestii, o której niewiele zostało ujawnione. Ale wiedza, że ten efekt maskowania może się zdarzyć, powinna stanowić podstawę naszej interpretacji wyników, a także naszych strategii wyboru zmiennych i budowy modelu.
źródło
rnorm(2^p, sd=2)
, pamiętaj, że pierwszym argumentem jest liczba terminów, a nie średnia. Średnia domyślnie wynosi zero i dlatego nie została wyraźnie określona.rnorm()
Często zdarza się tak, gdy masz wysoki stopień kolinearności między zmiennymi objaśniającymi. ANOVA F to wspólny test, w którym wszystkie regresory są wspólnie nieinformacyjne. Kiedy twoje Xs zawierają podobne informacje, model nie może przypisać mocy wyjaśniającej jednemu lub drugiemu regresorowi, ale ich kombinacja może wyjaśnić dużą zmienność zmiennej odpowiedzi.
źródło