Załóżmy, że mamy zmiennych towarzyszących i binarną zmienną wyniku . Niektóre z tych zmiennych towarzyszących są podzielone na kategorie z wieloma poziomami. Inne są ciągłe. Jak wybrałbyś „najlepszy” model? Innymi słowy, jak wybrać współzmienne, które należy uwzględnić w modelu?x 1 , … , x n y
Czy modelowałbyś każdą z zmiennych towarzyszących indywidualnie, stosując prostą regresję logistyczną i wybrałeś te ze znacznym powiązaniem?
logistic
regression-strategies
Tomasz
źródło
źródło
Odpowiedzi:
To prawdopodobnie nie jest dobra rzecz do zrobienia. Najpierw spojrzenie na wszystkie poszczególne zmienne towarzyszące, a następnie zbudowanie modelu z tymi, które są znaczące, jest logicznie równoważne automatycznej procedurze wyszukiwania. Chociaż takie podejście jest intuicyjne, wnioski wynikające z tej procedury są nieprawidłowe (np. Prawdziwe wartości p różnią się od tych zgłaszanych przez oprogramowanie). Problem jest powiększany, im większy jest rozmiar początkowego zestawu zmiennych towarzyszących. Jeśli i tak to zrobisz (i niestety wiele osób tak robi), nie możesz poważnie potraktować wynikowego modelu. Zamiast tego musisz przeprowadzić zupełnie nowe badanie, gromadząc niezależną próbkę i dopasowując poprzedni model, aby go przetestować. Wymaga to jednak wielu zasobów, a ponadto, ponieważ proces jest wadliwy, a poprzedni model prawdopodobnie jest kiepski,marnować dużo zasobów.
Lepszym sposobem jest ocena modeli istotnych dla Ciebie. Następnie użyj kryterium informacyjnego, które karze elastyczność modelu (np. AIC), aby orzec w sprawie tych modeli. W przypadku regresji logistycznej AIC to:
gdzie jest liczbą zmiennych towarzyszących zawartych w tym modelu. Chcesz model o najmniejszej wartości dla AIC, wszystkie rzeczy są równe. Jednak nie zawsze jest to takie proste; bądź ostrożny, gdy kilka modeli ma podobne wartości dla AIC, nawet jeśli jeden może być najniższy.k
Podaję tutaj pełną formułę AIC, ponieważ różne oprogramowanie generuje różne informacje. Być może będziesz musiał obliczyć to na podstawie prawdopodobieństwa, możesz też otrzymać ostateczny AIC lub cokolwiek pośredniego.
źródło
Istnieje wiele sposobów wyboru zmiennych, które mają się znaleźć w modelu regresji, niektóre przyzwoite, niektóre złe, a niektóre okropne. Można po prostu przeglądać publikacje Sander Greenland, z których wiele dotyczy wyboru zmiennych.
Generalnie jednak mam kilka wspólnych „zasad”:
źródło
Jak wybrałbyś „najlepszy” model?
Brak wystarczających informacji, aby odpowiedzieć na to pytanie; jeśli chcesz dostać się na efekty przyczynowych dotyczących y trzeba wdrożyć regresji, które odzwierciedlają to, co wiadomo o mylenia. Jeśli chcesz dokonać prognozy, AIC byłoby rozsądnym podejściem.
Te podejścia nie są takie same; kontekst określi, który z (wielu) sposobów wyboru zmiennych będzie bardziej / mniej odpowiedni.
źródło