Gdzie jest wspólna wariancja między wszystkimi IV w liniowym równaniu regresji wielokrotnej?

10

W równaniu regresji liniowej wielokrotnej, jeśli wagi beta odzwierciedlają udział każdej indywidualnej zmiennej niezależnej ponad udział wszystkich pozostałych IV, gdzie w równaniu regresji jest wariancja wspólna dla wszystkich IV, która przewiduje DV?

Na przykład, jeśli diagram Venna wyświetlony poniżej (i wzięty ze strony „about” CV tutaj: https://stats.stackexchange.com/about ) zostałby oznaczony jako 3 IV i 1 DV, gdzie miałby się pojawić obszar z gwiazdką w równanie regresji wielokrotnej?

wprowadź opis zdjęcia tutaj

Joel W.
źródło
4
Nie widzę tu potrzeby głosowania negatywnego. Myślę, że to pytanie dotyczy tego, co dzieje się w regresji wielokrotnej na poziomie podstawowym, i oferuje możliwość wyjaśnienia czegoś o MR, które w innym przypadku nigdy nie byłyby omówione.
gung - Przywróć Monikę

Odpowiedzi:

8

Aby zrozumieć, co ten diagram może znaczyć, musimy zdefiniować pewne rzeczy. Powiedzmy, że diagram Venna pokazuje nakładającą się (lub wspólną) wariancję między 4 różnymi zmiennymi i że chcemy przewidzieć poziomWiki odwołując się do naszej wiedzy na temat Digg, Forum, i Blog. Oznacza to, że chcemy być w stanie zmniejszyć niepewność (tj. Wariancję) wWikiod wariantu zerowego do wariantu resztkowego. Jak dobrze można to zrobić? Oto pytanie, na które odpowiada ci diagram Venna .

Każde koło reprezentuje zestaw punktów, a tym samym pewną wariancję. W większości interesuje nas wariancja wWiki, ale na rysunku pokazano również wariancje predyktorów. Jest kilka rzeczy, na które należy zwrócić uwagę w naszej postaci. Po pierwsze, każda zmienna ma taką samą wariancję - wszystkie są tego samego rozmiaru (chociaż nie wszyscy będą używać dosłownie diagramów Venna). Ponadto zachodzi taka sama ilość nakładania się itp. Itd. Ważniejszą rzeczą, na którą należy zwrócić uwagę, jest fakt, że zmienne predykcyjne nakładają się na siebie. Oznacza to, że są one skorelowane. Sytuacja ta jest bardzo powszechna w przypadku danych wtórnych (tj. Archiwalnych), badań obserwacyjnych lub scenariuszy prognoz w świecie rzeczywistym. Z drugiej strony, gdyby był to eksperyment eksperymentalny, prawdopodobnie oznaczałby zły projekt lub wykonanie. Kontynuując ten przykład nieco dłużej, widzimy, że nasza zdolność przewidywania będzie umiarkowana; większość zmienności wWiki pozostaje jako zmienność resztkowa po zastosowaniu wszystkich zmiennych (przypuszczam, że patrząc na diagram R2.35). Inną rzeczą, którą należy zauważyć, jest to, że razDigg i Blog zostały wprowadzone do modelu, Forumnie uwzględnia żadnej zmienności wWiki.

Teraz, po dopasowaniu modelu z wieloma predyktorami, ludzie często chcą przetestować te predyktory, aby sprawdzić, czy są one powiązane ze zmienną odpowiedzi (chociaż nie jest jasne, czy jest to tak ważne, jak się wydaje, że tak jest). Naszym problemem jest to, że aby przetestować te predyktory, musimy podzielić sumę kwadratów , a ponieważ nasze predyktory są skorelowane, istnieją SS, które można przypisać więcej niż jednemu predyktorowi. W rzeczywistości w obszarze oznaczonym gwiazdką SS można przypisać dowolnemu z trzech predyktorów. Oznacza to, że nie ma unikalnej partycji SS, a zatem nie ma unikalnego testu. Sposób rozwiązania tego problemu zależy od typu SS używanego przez naukowca iinne osądy dokonane przez badacza . Ponieważ wiele aplikacji domyślnie zwraca SS typu III, wiele osób wyrzuca informacje zawarte w pokrywających się regionach, nie zdając sobie sprawy z tego, że dokonały oceny . Wyjaśniam te problemy, różne typy SS i szczegółowo omawiam tutaj .

Pytanie, jak powiedziano, konkretnie dotyczy tego, gdzie to wszystko pojawia się w równaniu beta / regresji. Odpowiedź jest taka, że ​​nie. Niektóre informacje na ten temat zawarte są w mojej odpowiedzi tutaj (chociaż będziesz musiał przeczytać trochę między wierszami).

gung - Przywróć Monikę
źródło
Witaj Gung, dziękuję za twój post. To jest bardzo interesujące i otworzyło mi oczy w niektórych obszarach. Mam jednak problemy z czytaniem między wierszami posta, do którego linkujesz. Moje pytanie pozostaje więc następujące: w liniowym równaniu regresji wielokrotnej, jeśli wagi beta odzwierciedlają wkład każdej indywidualnej zmiennej niezależnej ponad wkład wszystkich pozostałych IV, gdzie w równaniu regresji jest wariancja wspólna dla wszystkich IV, które przewiduje DV?
Joel W.
Tak, będzie ciężko to zobaczyć. Chodzi o to, że istnieje zasadnicza różnica między zagadnieniem 1, jak podzielić SS na testy, a 2 oszacowaniem bety. 1 dotyczy przypisywania SS, której predyktor; 2 wybiera optymalne wartości dla bet. Nakładanie się pojawia się w pierwszym, a nie w drugim. Jeśli regresowałeśWiki na Digg i zapisał resztki, a następnie przewidział te pozostałości Forumi zapisane resids-2 itd. (to nieodpowiednie, BTW), zobaczysz, że bety wahają się gwałtownie. Ale Mult Reg szacuje wszystkie bety jednocześnie , więc się nie wyświetla.
gung - Przywróć Monikę
Jeśli „nakładanie się pojawia się w pierwszym, a nie w drugim”, jak równanie regresji może odzwierciedlać wspólną wariancję? Jeżeli Betas wskazują wkład każdego IV, gdy skutki wszystkich pozostałych IV są statystycznie usuwane, to jaka część wzoru regresji odzwierciedla moc predykcyjną usuniętej wspólnej wariancji? Lub w jaki sposób równanie regresji może pokazać, co stanie się z przewidywanym Y, jeśli zwiększysz jedną z IV o 1, jeśli nakładanie się nie zostanie odzwierciedlone w Betas? Trzecie pytanie: czy w analizie MR danych leżących u podstaw diagramu Venna forum beta = 0?
Joel W.
Nakładanie się jest w teście , a nie bety - nie jestem pewien, jak inaczej to ująć. Każda beta oznacza wpływ na zmienną odpowiedzi zmiany o 1 jednostkę w zmiennej towarzyszącej, przy czym wszystko inne pozostaje na stałym poziomie ; dana beta prawie na pewno nie byłaby taka sama, gdyby inne zmienne towarzyszące zostały usunięte z modelu. Jeśli diagram Venna dokładnie odzwierciedla proces generowania prawdziwych danych, wówczas prawdziwa wartość dlaβF=0, ale w praktyce szacunki empiryczne w zasadzie nigdy nie są równe 0.
gung - Przywróć Monikę
1
@MarkWhite, odpowiedź studenta jest w większości OK. Stwierdzenie, że gdy X1 i X2 są doskonale skorelowane, ich beta są w połowie, nie jest poprawne; gdy r = 1, model jest niemożliwy do zidentyfikowania (por. tutaj ). Gdy r zbliża się do 1, szacunkowe wartości beta będą zależeć od relacji w danych próbki i mogą się znacznie różnić w zależności od próbki.
gung - Przywróć Monikę
5

Peter Kennedy ma ładny opis diagramów Ballentine / Venna dotyczących regresji w swojej książce i artykule JSE , w tym przypadki, w których mogą doprowadzić cię na manowce.

Istotą jest to, że zmienność obszaru oznaczonego gwiazdką jest odrzucana tylko w celu oszacowania i przetestowania współczynników nachylenia. Ta odmiana jest dodawana ponownie w celu przewidywania i obliczaniaR2.

Dimitriy V. Masterov
źródło
+1, dodałbym „do szacowania” i testowania „współczynników nachylenia”, ale chodzi o to, aby uwzględnić to wR2jest dobry.
gung - Przywróć Monikę
Rzeczywiście i gotowe.
Dimitriy V. Masterov
Czy obszar oznaczony gwiazdką służy do obliczenia przewidywanego y? Jeśli tak, to gdzie we wzorze przewidywania obszar oznaczony gwiazdką przyczynia się do przewidywanego y? Inaczej mówiąc, jaki termin lub terminy we wzorze przewidywania odzwierciedlają obszar oznaczony gwiazdką?
Joel W.
3

Zdaję sobie sprawę, że jest to (bardzo) przestarzały wątek, ale ponieważ jeden z moich kolegów zadał mi to samo pytanie w tym tygodniu i nie znalazłem w Internecie niczego, co mógłbym mu wskazać, pomyślałem, że dodam moje dwa centy „dla potomności” tutaj. Nie jestem przekonany, że dotychczasowe odpowiedzi odpowiadają na pytanie PO.

Zamierzam uprościć problem, uwzględniając tylko dwie niezależne zmienne; rozszerzenie go na więcej niż dwa jest bardzo proste. Rozważmy następujący scenariusz: dwie zmienne niezależne (X1 i X2), zmienna zależna (Y), 1000 obserwacji, dwie zmienne niezależne są wysoce skorelowane ze sobą (r = .99), a każda zmienna niezależna jest skorelowana z zależną zmienna (r = .60). Bez utraty ogólności, standaryzuj wszystkie zmienne do średniej zero i standardowego odchylenia równego jedności, tak aby warunek przechwytywania wynosił zero w każdej regresji.

Uruchomienie prostej regresji liniowej Y na X1 da kwadrat r 0,36 i wartość b1 0,6. Podobnie, uruchomienie prostej regresji liniowej Y na X2 da r-kwadrat 0,36 i wartość b1 0,6.

Uruchomienie wielokrotnej regresji Y na X1 i X2 da kwadrat o wartości r nieco większej niż 0,36, a zarówno b1, jak i b2 przyjmą wartość 0,3. Zatem wspólna odmiana Y jest uchwycona ZARÓWNO w BOTH b1 i b2 (jednakowo).

Myślę, że OP mógł przyjąć fałszywe (ale całkowicie zrozumiałe) założenie: mianowicie, że gdy X1 i X2 zbliżają się coraz bliżej do doskonałej korelacji, ich wartości b w równaniu regresji wielokrotnej zbliżają się coraz bardziej do ZERO. Tak nie jest. W rzeczywistości, gdy X1 i X2 zbliżają się coraz bliżej do doskonałej korelacji, ich wartości b w regresji wielokrotnej zbliżają się coraz bliżej do POŁOWY wartości b w prostej regresji liniowej jednego z nich. Jednakże, gdy X1 i X2 zbliżają się coraz bliżej do doskonałej korelacji, BŁĄD STANDARDOWY b1 i b2 zbliża się coraz bliżej nieskończoności, więc wartości t zbiegają się na zero. Tak więc wartości t będą zbieżne na zero (tj. Nie będzie UNIQUE liniowej zależności między X1 i Y lub X2 i Y),

Tak więc odpowiedź na pytanie PO jest taka, że ​​gdy korelacja między X1 i X2 zbliża się do jedności, KAŻDY z częściowych współczynników nachylenia zbliża się, przyczyniając się w równym stopniu do przewidywania wartości Y, nawet jeśli żadna zmienna niezależna nie oferuje UNIKALNEGO wyjaśnienia zależności zmienna.

Jeśli chcesz to sprawdzić empirycznie, wygeneruj sfabrykowany zestaw danych (... użyłem makra SAS o nazwie Corr2Data.sas ...), który ma cechy opisane powyżej. Sprawdź wartości b, błędy standardowe i wartości t: przekonasz się, że są one dokładnie takie, jak opisano tutaj.

HTH // Phil

Student
źródło
1
To fantastyczne wyjaśnienie, dziękuję. Próbowałem symulować różne sytuacje w R i doszedłem do wniosku, że nie można pozbyć się wspólnej zmienności, jeśli n jest zbyt duże lub jeśli korelacja między wyjściem (Y) a wspólnym składnikiem (X1 i X2 ) jest za wysoko. Ale dlaczego wartości t odzwierciedlają cokolwiek, co nie jest unikalnym wkładem X1 i X2, na początek? Jeśli wartości t regresji odzwierciedlają unikalny udział predyktorów, nie powinniśmy widzieć, że wspólna zmienność w ogóle wpływa na wartości t, ale tak robimy. Dlaczego?
Galit