Obecnie pracuję nad problemem, w którym mamy niewielki zestaw danych i interesuje mnie wpływ przyczynowy leczenia na wynik.
Mój doradca polecił mi wykonać regresję jednowymiarową na każdym predyktorze z wynikiem jako odpowiedzią, a następnie przypisaniem leczenia jako odpowiedzią. Tzn. Poproszono mnie o dopasowanie regresji do jednej zmiennej na raz i sporządzenie tabeli wyników. Zapytałem „dlaczego powinniśmy to zrobić?”, A odpowiedź brzmiała: „jesteśmy zainteresowani, które czynniki predykcyjne są związane z przypisaniem do leczenia i jego wynikiem, ponieważ prawdopodobnie oznaczałoby to zamieszanie”. Mój doradca jest wyszkolonym statystykiem, a nie naukowcem z innej dziedziny, więc jestem skłonny im zaufać.
Ma to sens, ale nie jest jasne, jak wykorzystać wynik analizy jednowymiarowej. Czy wybranie z tego modelu wyboru modelu nie spowodowałoby istotnego błędu szacunków i wąskich przedziałów ufności? Dlaczego ktoś miałby to robić? Jestem zdezorientowany, a mój doradca jest dość niejasny w tej kwestii, kiedy ją poruszam. Czy ktoś ma zasoby na temat tej techniki?
(Uwaga: mój doradca powiedział, że NIE używamy wartości p jako wartości odcięcia, ale chcemy rozważyć „wszystko”).
Odpowiedzi:
Kontekst przyczynowy twojej analizy jest kluczowym czynnikiem w twoim pytaniu. W prognozowaniu prowadzenie regresji jednowymiarowych przed wieloma regresjami w duchu „celowej metody selekcji” sugerowanej przez Hosmera i Lemenshow ma jeden cel. W twoim przypadku, gdy budujesz model przyczynowy, przeprowadzenie regresji jednoczynnikowej przed uruchomieniem regresji wielokrotnej ma zupełnie inny cel. Pozwól mi rozwinąć to drugie.
Ty i Twój instruktor musicie mieć na uwadze pewien wykres przyczynowy. Wykresy przyczynowe mają implikowalne implikacje. Twoim zadaniem jest zacząć od zbioru danych, który masz, i powrócić do modelu przyczynowego, który mógł go wygenerować. Sugerowane przez ciebie, że regresje jednowymiarowe najprawdopodobniej stanowią pierwszy krok w procesie testowania implikacji grafu przyczynowego, o których myślisz. Załóżmy, że uważasz, że Twoje dane zostały wygenerowane przez model przyczynowy przedstawiony na poniższym wykresie. Załóżmy, że interesuje Cię przyczynowy wpływ D na E. Poniższy wykres sugeruje wiele możliwych do przetestowania implikacji, takich jak:
Wspomniałem, że jest to tylko pierwszy krok w procesie wyszukiwania przyczynowego, ponieważ prawdziwa zabawa rozpoczyna się po uruchomieniu wielu regresji, warunkowaniu różnych zmiennych i sprawdzeniu, czy wynik regresji jest zgodny z implikacją wykresu. Na przykład powyższy wykres sugeruje, że E i A muszą być niezależne po warunku na D. Innymi słowy, jeśli cofniesz E na D i A i okaże się, że współczynnik na A nie jest równy zero, wyciągniesz wniosek, że E zależy od A, po uwarunkowaniu D, i dlatego wykres przyczynowy musi być nieprawidłowy. Podpowie ci nawet, jak zmienić wykres przyczynowy, ponieważ wynik tej regresji sugeruje, że musi istnieć ścieżka między A i E, która nie jest oddzielona D.
źródło
Zanim spróbuję odpowiedzieć, chciałbym wskazać, że ten typ danych i ich dystrybucja może wpłynąć na sposób ich oceny / regresji / klasyfikacji.
Możesz także poszukać tutaj metody, której może zalecić Twój doradca.
Trochę tła. Podczas gdy korzystanie z narzędzia wyboru modelu jest możliwe, nadal musisz być w stanie powiedzieć, dlaczego predyktor został użyty lub pominięty. Te narzędzia mogą być czarną skrzynką. Powinieneś w pełni zrozumieć swoje dane i być w stanie stwierdzić, dlaczego wybrano dany predyktor. (Szczególnie zakładam, że praca magisterska / magisterska.)
Na przykład spójrz na cenę domów i wiek. Cena domów ogólnie spada z wiekiem. Dlatego gdy zobaczysz stary dom z wysoką ceną w swoich danych, wyglądałoby to jak wartość odstająca, którą należy usunąć, ale tak nie jest.
Jeśli chodzi o (NB: mój doradca powiedział, że NIE używamy wartości p jako granicy, ale że chcemy rozważyć „wszystko”). Wartości p nie są wszystkim i kończą wszystko, ale mogą być pomocne . Algorytmy / programy przywoływania są ograniczone i nie mogą wyświetlić całego obrazu.
Powód, dla którego możesz zastosować regresję jednoczynnikową dla każdego zadania predyktora / leczenia.
Może to pomóc w wyborze predyktorów, które mają zostać uwzględnione w podstawowym modelu wielowymiarowym. Na podstawie tego modelu podstawowego można by sprawdzić, czy te predyktory są znaczące i powinny pozostać, czy też powinny zostać usunięte w celu uzyskania modelu oszczędnego.
Możesz też lepiej zrozumieć dane.
źródło
Myślę, że twój przełożony prosi cię o przeprowadzenie pierwszej analizy danych w celu ustalenia, czy którakolwiek ze zmiennych może wyjaśnić znaczną część wariancji danych.
Po stwierdzeniu, czy którakolwiek ze zmiennych może wyjaśnić niektóre zmienności, będziesz w stanie ocenić, jak one działają razem, czy są one współliniowe, czy są ze sobą skorelowane itp. W fazie czysto eksploracyjnej w celu przeprowadzenia analizy wielowymiarowej może utrudnić pierwszą ocenę, ponieważ konstruując każdą zmienną, usuwasz efekt pozostałych. Trudniej jest ocenić, czy którakolwiek ze zmiennych może wyjaśnić dowolną z tych zmian.
źródło
To może być podejście do rozumienia danych, ale doświadczenie pokazuje, że prognozy będą się różnić, gdy użyjesz wszystkich predyktorów łącznie i każdego z nich jeden po drugim. To po prostu rozumiemy przewidywalność danych i rozumiemy, co należy zrobić dla przyszłych kroków.
Widziałem wiele razy, gdy przy wszystkich zmiennych wartość p mówi, że niektóre zmienne nie są znaczące, ale przy samych samych nieistotnych zmiennych były one wystarczająco znaczące. Wynika to z mieszanego efektu: to nie jest tak, że twój przełożony się myli, ale aby zrozumieć dane, musimy to zrobić.
źródło