Doskonale zdaję sobie sprawę z problemów selekcji krokowej / do przodu / do tyłu w modelach regresji. Istnieje wiele przypadków badaczy potępiających metody i wskazujących na lepsze alternatywy. Byłem ciekawy, czy istnieją jakieś historie, w których analiza statystyczna:
- zastosował regresję stopniową;
- wyciągnął kilka ważnych wniosków na podstawie ostatecznego modelu
- wniosek był błędny, powodując negatywne konsekwencje dla jednostki, jej badań lub organizacji
Myślałem o tym, jeśli metody krokowe są złe, wówczas w „prawdziwym świecie” powinny wystąpić konsekwencje ich stosowania.
regression
stepwise-regression
history
prawdopodobieństwo prawdopodobieństwa
źródło
źródło
Odpowiedzi:
Zadawane jest więcej niż jedno pytanie. Najbardziej wąski pyta o przykład, kiedy regresja krokowa spowodowała szkodę, ponieważ została wykonana krok po kroku. Jest to oczywiście prawda, ale można to ustalić jednoznacznie tylko wtedy, gdy dane użyte do regresji krokowej są również publikowane, a ktoś ponownie je analizuje i publikuje korektę z recenzją z wycofaniem opublikowanym przez autorów pierwotnych. Stawianie zarzutów w jakimkolwiek innym kontekście wiąże się z ryzykiem prawnym, a jeśli użyjemy innego zestawu danych, możemy podejrzewać, że popełniono błąd, ale „statystyki nigdy niczego nie dowodzą” i nie bylibyśmy w stanie ustalić, że błąd był zrobiony; „ponad uzasadnioną wątpliwość”.
W rzeczywistości często uzyskuje się różne wyniki w zależności od tego, czy dokonuje się stopniowej eliminacji, czy stopniowego tworzenia równania regresji, co sugeruje nam, że żadne podejście nie jest wystarczająco poprawne, aby zalecić jego użycie. Oczywiście dzieje się coś innego, co prowadzi nas do szerszego pytania, również zadanego powyżej, ale w formie wypunktowania, w skrócie: „Jakie są problemy z regresją krokową, w każdym razie? To jest bardziej przydatne pytanie, na które można odpowiedzieć i ma dodatkowa korzyść, że nie będę mieć pozwu przeciwko niemu.
Zrobienie tego dobrze dla stopniowej MLR oznacza użycie 1) fizycznie poprawnych jednostek (patrz poniżej), i 2) odpowiedniej transformacji zmiennej dla najlepszych korelacji i rodzaju rozkładu błędów (dla homoscedastyczności i fizyczności) oraz 3) przy użyciu wszystkich permutacji kombinacji zmiennych, a nie krok mądry, wszystkie z nich , i 4) jeśli ktoś spełnia wyczerpująca diagnostyka regresji następnie unika brakujące wysoką Vif (kolinearności) zmienna kombinacji, które w przeciwnym razie byłyby mylące, to nagroda jest lepiej regresji.
Jak obiecano w punkcie 1 powyżej, następnie badamy odpowiednie jednostki dla systemu fizycznego. Ponieważ dobre wyniki regresji zależą od prawidłowego traktowania zmiennych, musimy pamiętać o zwykłych wymiarach jednostek fizycznych i odpowiednio równoważyć nasze równania. Ponadto w przypadku zastosowań biologicznych konieczna jest świadomość i uwzględnianie wymiarów skalowania allometrycznego .
źródło