Jaki jest sens regresji jednowymiarowej przed regresją wielowymiarową?

13

Obecnie pracuję nad problemem, w którym mamy niewielki zestaw danych i interesuje mnie wpływ przyczynowy leczenia na wynik.

Mój doradca polecił mi wykonać regresję jednowymiarową na każdym predyktorze z wynikiem jako odpowiedzią, a następnie przypisaniem leczenia jako odpowiedzią. Tzn. Poproszono mnie o dopasowanie regresji do jednej zmiennej na raz i sporządzenie tabeli wyników. Zapytałem „dlaczego powinniśmy to zrobić?”, A odpowiedź brzmiała: „jesteśmy zainteresowani, które czynniki predykcyjne są związane z przypisaniem do leczenia i jego wynikiem, ponieważ prawdopodobnie oznaczałoby to zamieszanie”. Mój doradca jest wyszkolonym statystykiem, a nie naukowcem z innej dziedziny, więc jestem skłonny im zaufać.

Ma to sens, ale nie jest jasne, jak wykorzystać wynik analizy jednowymiarowej. Czy wybranie z tego modelu wyboru modelu nie spowodowałoby istotnego błędu szacunków i wąskich przedziałów ufności? Dlaczego ktoś miałby to robić? Jestem zdezorientowany, a mój doradca jest dość niejasny w tej kwestii, kiedy ją poruszam. Czy ktoś ma zasoby na temat tej techniki?

(Uwaga: mój doradca powiedział, że NIE używamy wartości p jako wartości odcięcia, ale chcemy rozważyć „wszystko”).

Marcel
źródło
6
Jeśli przez „regresję jednowymiarową” Twój instruktor obejmowałby narysowanie wykresu rozrzutu, to rzeczywiście jest to mądra rada. A ponieważ żadna regresja, na której ci zależy, nie powinna być przeprowadzana bez spiskowania, otrzymasz przydatne informacje. Zrób to wszystko naraz, jeśli możesz, z matrycą wykresów rozrzutu i pokaż z nimi solidne wygładzanie. Korzyści będą oczywiste, gdy zobaczysz różne sposoby, w jakie twoje zmienne mogą odbiegać od wykazywania zależności liniowych.
whuber
1
Co jeśli dane odpowiedzi są binarne, a my używamy glm z linkiem logit? Twoje wyjaśnienie z pewnością wyjaśnia przypadek liniowy, a teraz, gdy o tym myślę, użycie wykresów rozrzutu byłoby naturalne
Marcel
5
Martwiłem się, że możesz o to zapytać :-). Właściwie dobra gładkość może nadal zapewniać doskonały wgląd. Pomaga wstrząsnąć odpowiedzią, abyś mógł zobaczyć jej dystrybucję. Oto przykład takiej fabuły: stats.stackexchange.com/a/14501/919 . Ilustruję inne rozwiązanie na stronie stats.stackexchange.com/a/138660/919 .
whuber
3
Ta regresja jednoczynnikowa przed techniką regresji wielowymiarowej nazywa się „celowym wyborem zmiennych” w książce Hosmera i Lemeshowa „Regresja logistyczna stosowana”
Great38
7
Uwaga - zmienna może nie wykazywać związku w regresji zmiennej, ale może być ważna w relacji wielu zmiennych.
Glen_b

Odpowiedzi:

3

Kontekst przyczynowy twojej analizy jest kluczowym czynnikiem w twoim pytaniu. W prognozowaniu prowadzenie regresji jednowymiarowych przed wieloma regresjami w duchu „celowej metody selekcji” sugerowanej przez Hosmera i Lemenshow ma jeden cel. W twoim przypadku, gdy budujesz model przyczynowy, przeprowadzenie regresji jednoczynnikowej przed uruchomieniem regresji wielokrotnej ma zupełnie inny cel. Pozwól mi rozwinąć to drugie.

Ty i Twój instruktor musicie mieć na uwadze pewien wykres przyczynowy. Wykresy przyczynowe mają implikowalne implikacje. Twoim zadaniem jest zacząć od zbioru danych, który masz, i powrócić do modelu przyczynowego, który mógł go wygenerować. Sugerowane przez ciebie, że regresje jednowymiarowe najprawdopodobniej stanowią pierwszy krok w procesie testowania implikacji grafu przyczynowego, o których myślisz. Załóżmy, że uważasz, że Twoje dane zostały wygenerowane przez model przyczynowy przedstawiony na poniższym wykresie. Załóżmy, że interesuje Cię przyczynowy wpływ D na E. Poniższy wykres sugeruje wiele możliwych do przetestowania implikacji, takich jak:

  • E i D są prawdopodobnie zależne
  • E i A są prawdopodobnie zależne
  • E i C są prawdopodobnie zależne
  • E i B są prawdopodobnie zależne
  • E i N są prawdopodobnie niezależne

wprowadź opis zdjęcia tutaj

Wspomniałem, że jest to tylko pierwszy krok w procesie wyszukiwania przyczynowego, ponieważ prawdziwa zabawa rozpoczyna się po uruchomieniu wielu regresji, warunkowaniu różnych zmiennych i sprawdzeniu, czy wynik regresji jest zgodny z implikacją wykresu. Na przykład powyższy wykres sugeruje, że E i A muszą być niezależne po warunku na D. Innymi słowy, jeśli cofniesz E na D i A i okaże się, że współczynnik na A nie jest równy zero, wyciągniesz wniosek, że E zależy od A, po uwarunkowaniu D, i dlatego wykres przyczynowy musi być nieprawidłowy. Podpowie ci nawet, jak zmienić wykres przyczynowy, ponieważ wynik tej regresji sugeruje, że musi istnieć ścieżka między A i E, która nie jest oddzielona D.

ColorStatistics
źródło
1

Zanim spróbuję odpowiedzieć, chciałbym wskazać, że ten typ danych i ich dystrybucja może wpłynąć na sposób ich oceny / regresji / klasyfikacji.

Możesz także poszukać tutaj metody, której może zalecić Twój doradca.

Trochę tła. Podczas gdy korzystanie z narzędzia wyboru modelu jest możliwe, nadal musisz być w stanie powiedzieć, dlaczego predyktor został użyty lub pominięty. Te narzędzia mogą być czarną skrzynką. Powinieneś w pełni zrozumieć swoje dane i być w stanie stwierdzić, dlaczego wybrano dany predyktor. (Szczególnie zakładam, że praca magisterska / magisterska.)

Na przykład spójrz na cenę domów i wiek. Cena domów ogólnie spada z wiekiem. Dlatego gdy zobaczysz stary dom z wysoką ceną w swoich danych, wyglądałoby to jak wartość odstająca, którą należy usunąć, ale tak nie jest.

Jeśli chodzi o (NB: mój doradca powiedział, że NIE używamy wartości p jako granicy, ale że chcemy rozważyć „wszystko”). Wartości p nie są wszystkim i kończą wszystko, ale mogą być pomocne . Algorytmy / programy przywoływania są ograniczone i nie mogą wyświetlić całego obrazu.

Powód, dla którego możesz zastosować regresję jednoczynnikową dla każdego zadania predyktora / leczenia.

Może to pomóc w wyborze predyktorów, które mają zostać uwzględnione w podstawowym modelu wielowymiarowym. Na podstawie tego modelu podstawowego można by sprawdzić, czy te predyktory są znaczące i powinny pozostać, czy też powinny zostać usunięte w celu uzyskania modelu oszczędnego.

Możesz też lepiej zrozumieć dane.

Apokryf
źródło
1
Moja żona i ja kupiliśmy stary dom, ale nie było nas stać na historyczny dom, więc twój przykład ma łatwy kontrprzykład.
Nick Cox
Prawdziwe. Chciałem porozmawiać o cenie domów. Jak ceny domów ogólnie spadają z wiekiem. Dlatego gdy zobaczysz stary dom z wysoką ceną, będzie on wyglądał jak odstający od normy. Zmienię ten punkt. Dzięki.
Apocryphon
0

Myślę, że twój przełożony prosi cię o przeprowadzenie pierwszej analizy danych w celu ustalenia, czy którakolwiek ze zmiennych może wyjaśnić znaczną część wariancji danych.

Po stwierdzeniu, czy którakolwiek ze zmiennych może wyjaśnić niektóre zmienności, będziesz w stanie ocenić, jak one działają razem, czy są one współliniowe, czy są ze sobą skorelowane itp. W fazie czysto eksploracyjnej w celu przeprowadzenia analizy wielowymiarowej może utrudnić pierwszą ocenę, ponieważ konstruując każdą zmienną, usuwasz efekt pozostałych. Trudniej jest ocenić, czy którakolwiek ze zmiennych może wyjaśnić dowolną z tych zmian.

pedrofigueira
źródło
0

To może być podejście do rozumienia danych, ale doświadczenie pokazuje, że prognozy będą się różnić, gdy użyjesz wszystkich predyktorów łącznie i każdego z nich jeden po drugim. To po prostu rozumiemy przewidywalność danych i rozumiemy, co należy zrobić dla przyszłych kroków.
Widziałem wiele razy, gdy przy wszystkich zmiennych wartość p mówi, że niektóre zmienne nie są znaczące, ale przy samych samych nieistotnych zmiennych były one wystarczająco znaczące. Wynika to z mieszanego efektu: to nie jest tak, że twój przełożony się myli, ale aby zrozumieć dane, musimy to zrobić.

JAbr
źródło