Mam pytanie, które jest prawdopodobnie proste, ale teraz mnie to zaskakuje, więc mam nadzieję, że możesz mi pomóc.
Mam model regresji metodą najmniejszych kwadratów, z jedną zmienną niezależną i jedną zmienną zależną. Związek nie jest znaczący. Teraz dodaję drugą zmienną niezależną. Teraz związek między pierwszą zmienną niezależną a zmienną zależną staje się znaczący.
Jak to działa? Prawdopodobnie świadczy to o pewnym problemie z moim rozumieniem, ale dla mnie, ale nie widzę, jak dodanie tej drugiej zmiennej niezależnej może uczynić pierwszą znaczącą.
Odpowiedzi:
Chociaż kolinearność (zmiennych predykcyjnych) jest możliwym wyjaśnieniem, chciałbym zasugerować, że nie jest to pouczające wyjaśnienie, ponieważ wiemy, że kolinearność jest związana z „powszechną informacją” wśród predyktorów, więc nie ma w tym nic tajemniczego ani sprzecznego z intuicją efekt wprowadzenia drugiego skorelowanego predyktora do modelu.
Rozważmy zatem przypadek dwóch predyktorów, które są naprawdę ortogonalne : absolutnie nie ma między nimi kolinearności. Nadal może nastąpić znacząca zmiana znaczenia.
Wyznacz zmienne predykcyjne i i pozwól nazwać predyktor . Regresja względem nie będzie znacząca, gdy zmienność wokół jego średniej nie zostanie znacznie zmniejszona, gdy zostanie użyte jako zmienna niezależna. Jednak gdy ta odmiana jest silnie związana z drugą zmienną , sytuacja się zmienia. Przypomnij sobie, że wielokrotna regresja względem i jest równoważnaX 2 Y Y X 1 Y X 1 X 2 Y X 1 X 2X1 X2) Y Y X1 Y X1 X2) Y X1 X2)
Oddzielnie cofnij i względem .X 1 X 2Y X1 X2)
Zarejestruj wartości resztkowe stosunku do wartości resztkowych .X 1Y X1
Resztki z pierwszego etapu usunęły efekt . Gdy jest ściśle skorelowane z , może to ujawnić stosunkowo niewielką zmienność, która wcześniej była maskowana. Jeśli ta odmiana jest powiązana z , uzyskujemy znaczący wynik.X 2 Y X 1X2) X2) Y X1
Wszystko to można chyba wyjaśnić konkretnym przykładem. Na początek użyjmyε
R
do wygenerowania dwóch niezależnych zmiennych ortogonalnych wraz z pewnym niezależnym błędem losowym :(TenX1 X2)
svd
krok zapewnia, że dwie kolumny macierzyx
(reprezentujące i ) są ortogonalne, co wyklucza kolinearność jako możliwe wyjaśnienie wszelkich późniejszych wyników.)X 2Następnie utwórz jako liniową kombinację i błędu. Skorygowałem współczynniki, aby uzyskać sprzeczne z intuicją zachowanie:XY X
Jest to realizacja modelu przy przypadkach.n = 32Y∼I I dN.( 0,05 X1+ 1,00 X2), 0,012)) n = 32
Spójrz na te dwie regresje, o których mowa. Po pierwsze , regres przeciwko tylko:X 1Y X1
Wysoka wartość p wynosząca 0,710 pokazuje, że jest całkowicie nieistotny.X1
Następnie cofnij względem i :X 1 X 2Y X1 X2)
Nagle w obecności , jest wysoce znaczące, jak wskazano za pomocą p-wartości bliskiej zeru dla obydwu czynników.X 1X2) X1
Możemy zwizualizować to zachowanie za pomocą macierzy rozrzutu zmiennych , i wraz z resztami zastosowanymi w dwustopniowej charakterystyce regresji wielokrotnej powyżej. Ponieważ i są ortogonalne, reszty będą takie same jak i dlatego nie trzeba ich przerysowywać. Uwzględnimy resztę względem w macierzy wykresu rozrzutu, podając następującą liczbę:X 2 Y X 1 X 2 X 1 X 1 Y X 2X1 X2) Y X1 X2) X1 X1 Y X2)
Oto jej rendering (z niewielkim upiększeniem):
Ta matryca grafiki ma cztery rzędy i cztery kolumny, które odliczę od góry i od lewej do prawej.
Ogłoszenie:
rozrzutu, w drugim rzędzie i pierwszej kolumnie potwierdza ortogonalność tych predykcyjnych: linia najmniejszych kwadratów jest pozioma i korelacji wynosi zero.( X1, X2))
rozproszenia w trzecim rzędzie i pierwszej kolumny wykazuje niewielkie, ale zupełnie nieistotny związek dostarczanym przez pierwszy regresji z . (Współczynnik korelacji, , wynosi tylko ).Y X 1 ρ 0,07( X1, Y) Y X1 ρ 0,07
rozproszenia w trzecim rzędzie i druga kolumna przedstawia silny związek między i drugą zmienną niezależną. (Współczynnik korelacji wynosi ).Y 0,996( X2), Y) Y 0,996
Czwarty wiersz bada zależności pomiędzy pozostałości z (regresji na ) oraz innych zmiennychX 2Y X2)
Skala pionowa pokazuje, że reszty są (względnie) dość małe: nie mogliśmy ich łatwo zobaczyć na wykresie rozrzutu względem .X 2Y X2)
Reszty są silnie skorelowane z ( ). Regresja względem zdemaskowała to wcześniej ukryte zachowanie. ρ = 0,80 X 2X1 ρ = 0,80 X2)
Z założenia nie ma żadnej korelacji między a .X2)
Istnieje niewielka korelacja między a tymi resztami ( ). To pokazuje, jak reszty mogą zachowywać się zupełnie inaczej niż samo W ten sposób może zostać nagle ujawniony jako znaczący czynnik przyczyniający się do regresji.ρ = 0,09 Y X 1Y ρ = 0,09 Y X1
Na koniec warto zauważyć, że dwie oceny współczynnika (oba równe , niedaleko od zamierzonej wartości ) są zgodne tylko dlatego, że i są ortogonalne. Z wyjątkiem zaprojektowanych eksperymentów rzadko zdarza się, aby ortogonalność była dokładnie utrzymywana. Odejście od ortogonalności zwykle powoduje zmianę oszacowań współczynników. 0,06895 0,05 X 1 X 2X1 0,06895 0,05 X1 X2)
źródło
Myślę, że ten problem został wcześniej omówiony na tej stronie dość dokładnie, jeśli tylko wiesz, gdzie szukać. Prawdopodobnie dodam później komentarz z linkami do innych pytań lub mogę go edytować, aby uzyskać pełniejsze wyjaśnienie, jeśli nie mogę znaleźć żadnego.
Istnieją dwie podstawowe możliwości: Po pierwsze, drugi IV może pochłonąć część resztkowej zmienności, a tym samym zwiększyć moc testu statystycznego początkowego IV. Druga możliwość polega na tym, że masz zmienną supresora. To bardzo sprzeczny z intuicją temat, ale możesz znaleźć informacje tutaj *, tutaj lub o tym doskonałym wątku CV .
* Pamiętaj, że musisz przeczytać całą drogę do dołu, aby przejść do części wyjaśniającej zmienne supresora, możesz po prostu przejść do przodu, ale najlepiej będzie, jeśli przeczytasz całość.
Edycja: zgodnie z obietnicą dodam pełniejsze wyjaśnienie mojego punktu, w jaki sposób druga IV może pochłonąć część resztkowej zmienności, a tym samym zwiększyć moc testu statystycznego początkowej IV. @whuber dodał imponujący przykład, ale pomyślałem, że mogę dodać komplementarny przykład, który wyjaśnia to zjawisko w inny sposób, co może pomóc niektórym ludziom lepiej zrozumieć to zjawisko. Ponadto wykazuję, że druga IV nie musi być silniej powiązana (chociaż w praktyce prawie zawsze tak się stanie).
Zmienne towarzyszące w modelu regresji można testować za pomocą testów , dzieląc oszacowanie parametru przez błąd standardowy, lub można je testować za pomocą testów dzieląc sumy kwadratów. Gdy używane są SS typu III, te dwie metody testowania będą równoważne (więcej informacji na temat typów SS i powiązanych testów może pomóc przeczytać moją odpowiedź tutaj: Jak interpretować SS typu I ). Dla tych, którzy dopiero zaczynają uczyć się o metodach regresji, często przeprowadzane są testy ponieważ ludzie wydają się łatwiejsi do zrozumienia. Jednak jest to przypadek, w którym myślę, że spojrzenie na tabelę ANOVA jest bardziej pomocne. Przypomnijmy podstawową tabelę ANOVA dla prostego modelu regresji: F tt fa t
Tutaj jest średnią , jest obserwowaną wartością dla jednostki (np. Pacjenta) , jest przewidywaną wartością modelu dla jednostki , a jest całkowitą liczbą jednostek w badaniu. Jeśli masz model regresji wielokrotnej z dwiema zmiennymi ortogonalnymi, tabelę ANOVA można skonstruować w następujący sposób: YYiYi Y IINy¯ y yja y ja y^ja ja N.
Tutaj , na przykład, jest przewidywaną wartością dla jednostki jeśli jej obserwowana wartość dla była jej rzeczywistą obserwowaną wartością, ale jej obserwowana wartość dla była średnią . Oczywiście możliwe jest, że jest obserwowaną wartością dla niektórych obserwacji, w którym to przypadku nie ma potrzeby dokonywania korekt, ale zwykle tak nie jest. Zauważ, że ta metoda tworzenia tabeli ANOVA jest poprawna tylko wtedy, gdy wszystkie zmienne są ortogonalne; jest to bardzo uproszczony przypadek stworzony do celów ekspozycyjnych. ix1x2x2 ˂ x 2x2y^x1 ix¯2) ja x1 x2) x2) x¯2) x2)
Jeśli weźmiemy pod uwagę sytuację, w której te same dane są używane do dopasowania modelu zarówno z, jak i bez , wówczas zaobserwowane wartości i będą takie same. Zatem całkowite SS musi być takie samo w obu tabelach ANOVA. Ponadto, jeśli i są względem siebie ortogonalne, to będzie identyczny w obu tabelach ANOVA. Jak to możliwe, że w tabeli mogą występować sumy kwadratów powiązanych z ? Skąd pochodzą, jeśli łączna liczba SS i są takie same? Odpowiedź jest taka, że pochodzą one z . są również brane od y ˉ y x 1 x 2 S S x 1 x 2 S S x 1 S S res df x 2 df resx2) y y¯ x1 x2) S.S.x1 x2) S.S.x1 S.S.res dfx2) dfres .
Teraz dla to podzielony przez w obu przypadkach. Ponieważ jest taki sam, różnica w znaczeniu tego testu wynika ze zmiany , która zmieniła się na dwa sposoby: Zaczęło się z mniejszą liczbą SS, ponieważ niektórym przydzielono , ale są one podzielone przez mniej df, ponieważ niektóre stopnie swobody zostały również przydzielone do . Zmiana znaczenia / mocy testu (i równoważnie testu , w tym przypadku) wynika z tego, jak te dwie zmiany się kompromisują. Jeśli podano więcej SS dox 1 M S x 1 M S res M S x 1 M S res x 2 x 2 F t x 2 x 2 M S res F x 1 pfa x1 M.S.x1 M.S.res M.S.x1 M.S.res x2) x2) fa t x2) , w stosunku do df, które podano , wtedy zmniejszy się, powodując wzrost związany z a staje się bardziej znaczący. x2) M.S.res fa x1 p
Aby to nastąpiło, efekt nie musi być większy niż , ale jeśli tak nie jest, wówczas przesunięcia wartości będą dość małe. Jedynym sposobem, w jaki skończy się przełączanie między nieistotnością a istotnością, jest to, że wartości są po prostu nieznacznie po obu stronach alfa. Oto przykład zakodowany w : x 1 p sx2) x1 p p
R
W rzeczywistości wcale nie musi być znaczący. Rozważać:x2)
Nie są one wprawdzie niczym dramatycznym przykładem w poście @ whuber, ale mogą pomóc ludziom zrozumieć, co się tutaj dzieje.
źródło
Wydaje się, że pytanie OP można interpretować na dwa różne sposoby:
Matematycznie, jak działa OLS, tak że dodanie niezależnej zmiennej może zmienić wyniki w nieoczekiwany sposób?
W jaki sposób modyfikacja mojego modelu przez dodanie jednej zmiennej może zmienić efekt innej, niezależnej zmiennej w modelu?
Istnieje kilka dobrych odpowiedzi na pytanie nr 1. Pytanie 2 może być tak oczywiste dla ekspertów, że zakładają, że OP musi zadać pytanie 1. Ale myślę, że pytanie nr 2 zasługuje na odpowiedź, która brzmiałaby mniej więcej tak:
Zacznijmy od przykładu. Powiedz, że miałeś wzrost, wiek, płeć itp. Wielu dzieci i chciałeś zrobić regresję, aby przewidzieć ich wzrost.
Zaczynasz od naiwnego modelu, w którym płeć jest zmienną niezależną. I to nie jest statystycznie istotne. (Jak to możliwe, miksujesz 3-latki i nastolatki.)
Następnie dodajesz z wiekiem i nagle nie tylko wiek jest znaczący, ale także płeć. Jak to możliwe?
Oczywiście w moim przykładzie widać wyraźnie, że wiek jest ważnym czynnikiem wzrostu dziecka / nastolatka. Prawdopodobnie najważniejszy czynnik, na którym masz dane. Płeć może mieć również znaczenie, szczególnie w przypadku starszych dzieci i dorosłych, ale sama płeć jest kiepskim modelem wzrostu dziecka.
Wiek plus płeć to rozsądny (choć oczywiście uproszczony) model, który jest odpowiedni do tego zadania. Jeśli dodasz inne dane - interakcję wieku i płci, dietę, wzrost rodziców itp. - możesz stworzyć jeszcze lepszy model, który oczywiście nadal byłby uproszczony w porównaniu z szeregiem czynników, które faktycznie determinują wzrost dziecka, ale z drugiej strony wszystkie modele są uproszczonymi wersjami rzeczywistości. (Mapa świata w skali 1: 1 nie jest zbyt przydatna dla podróżnika).
Twój oryginalny model (tylko płeć) jest zbyt uproszczony - tak uproszczony, że jest w zasadzie zepsuty. Ale to nie znaczy, że płeć nie jest przydatna w lepszym modelu.
EDYCJA: dodano sugestię Gunga dotyczącą: terminu interakcji wieku i płci.
źródło
Wątek ma już trzy doskonałe odpowiedzi (+1 do każdego). Moja odpowiedź jest rozszerzonym komentarzem i ilustracją do tego, co zrobił @gung (co zajęło mi trochę czasu):
"Wzmocnienie"
Poniższy rysunek pokazuje obie możliwości wymienione przez @gung. Na początku rozważ tylko niebieską część (tzn. Zignoruj wszystkie czerwone linie):
Innym sposobem jest to, że test porównuje teraz długość OF z OG, a nie z OC jak poprzednio; OF jest niewielki i „nieistotny” w porównaniu do OC, ale wystarczająco duży, aby być „znaczący” w porównaniu z OG.
To jest dokładnie sytuacja przedstawiona przez @whuber, @gung i @Wayne w swoich odpowiedziach. Nie wiem, czy ten efekt ma standardową nazwę w literaturze dotyczącej regresji, dlatego nazwałbym to „ulepszeniem”.
Tłumienie
Nie tak w tłumieniu.
źródło