Wycie spowodowane przez regresję stopniową

Doskonale zdaję sobie sprawę z problemów selekcji krokowej / do przodu / do tyłu w modelach regresji. Istnieje wiele przypadków badaczy potępiających metody i wskazujących na lepsze alternatywy. Byłem ciekawy, czy istnieją jakieś historie, w których analiza statystyczna:

zastosował regresję stopniową;
wyciągnął kilka ważnych wniosków na podstawie ostatecznego modelu
wniosek był błędny, powodując negatywne konsekwencje dla jednostki, jej badań lub organizacji

Myślałem o tym, jeśli metody krokowe są złe, wówczas w „prawdziwym świecie” powinny wystąpić konsekwencje ich stosowania.

regression stepwise-regression history prawdopodobieństwo prawdopodobieństwa
źródło

Jeśli nie znajdziesz takich historii, być może dlatego, że regresję krokową stosuje się głównie w badaniach podstawowych (a przynajmniej tak sądzę). Podstawowi badacze zwykle nie mają kłopotów z tym, że się mylą, dopóki nie sfałszują danych lub czegoś takiego.

Kodiolog,

Jest często używany w przemyśle i klasie. W badaniach autorzy prawdopodobnie nie ujawniliby, że go wykorzystali. W branży główne dwa powody są następujące: a) osoby, które to robią, nie były przeszkolone w badaniach, np. Mają stopnie licencjackie lub b) ukończyły dziesiątki lat temu.

Aksakal

@Aksakal Nie nauka od początku, ale i tak zdobycie skóry owczej jest problemem, a nie upływem czasu. Exemplis gratis , ja. Wziąłem jeden kurs statystyki około 1971 r. I po raz pierwszy użyłem statystyk w publikacji około 2006 r.

Carl

Powiązane: Podczas tortur dane mogą dawać fałszywe zeznania. Przykłady?

Gung - Przywróć Monikę

Zadawane jest więcej niż jedno pytanie. Najbardziej wąski pyta o przykład, kiedy regresja krokowa spowodowała szkodę, ponieważ została wykonana krok po kroku. Jest to oczywiście prawda, ale można to ustalić jednoznacznie tylko wtedy, gdy dane użyte do regresji krokowej są również publikowane, a ktoś ponownie je analizuje i publikuje korektę z recenzją z wycofaniem opublikowanym przez autorów pierwotnych. Stawianie zarzutów w jakimkolwiek innym kontekście wiąże się z ryzykiem prawnym, a jeśli użyjemy innego zestawu danych, możemy podejrzewać, że popełniono błąd, ale „statystyki nigdy niczego nie dowodzą” i nie bylibyśmy w stanie ustalić, że błąd był zrobiony; „ponad uzasadnioną wątpliwość”.

W rzeczywistości często uzyskuje się różne wyniki w zależności od tego, czy dokonuje się stopniowej eliminacji, czy stopniowego tworzenia równania regresji, co sugeruje nam, że żadne podejście nie jest wystarczająco poprawne, aby zalecić jego użycie. Oczywiście dzieje się coś innego, co prowadzi nas do szerszego pytania, również zadanego powyżej, ale w formie wypunktowania, w skrócie: „Jakie są problemy z regresją krokową, w każdym razie? To jest bardziej przydatne pytanie, na które można odpowiedzieć i ma dodatkowa korzyść, że nie będę mieć pozwu przeciwko niemu.

Zrobienie tego dobrze dla stopniowej MLR oznacza użycie 1) fizycznie poprawnych jednostek (patrz poniżej), i 2) odpowiedniej transformacji zmiennej dla najlepszych korelacji i rodzaju rozkładu błędów (dla homoscedastyczności i fizyczności) oraz 3) przy użyciu wszystkich permutacji kombinacji zmiennych, a nie krok mądry, wszystkie z nich , i 4) jeśli ktoś spełnia wyczerpująca diagnostyka regresji następnie unika brakujące wysoką Vif (kolinearności) zmienna kombinacji, które w przeciwnym razie byłyby mylące, to nagroda jest lepiej regresji.

Jak obiecano w punkcie 1 powyżej, następnie badamy odpowiednie jednostki dla systemu fizycznego. Ponieważ dobre wyniki regresji zależą od prawidłowego traktowania zmiennych, musimy pamiętać o zwykłych wymiarach jednostek fizycznych i odpowiednio równoważyć nasze równania. Ponadto w przypadku zastosowań biologicznych konieczna jest świadomość i uwzględnianie wymiarów skalowania allometrycznego .

$GFR=k∗W^{1/4}V^{2/3}$ $GFR$ $W$ $1=\frac{1}{4} \frac{4}{3}+\frac{2}{3}$ $GFR$

Carl
źródło

Wydaje się, że opisuje to ogólnie problem regresji, a nie regresji konkretnej.

Przypadkowy statystyk

Tak, są to ogólnie aspekty regresji. Jeśli jednak dobrze rozumiem, skąd pochodzi to pytanie, jest ono motywowane regresją krokową, często potępianą na korzyść takich jak LASSO, co nie rozwiązałoby twoich obaw.

Przypadkowy statystyk

Doceniam twoją szczerość i dobrą wolę w tej sprawie, Carl. Nie przeczę, że głosowanie ma swoje problemy. Jedynym skutecznym sposobem, w jaki znam zmianę głosowania nad postem, jest zmiana odpowiedzi - albo ją ulepszyć technicznie, rozwinąć, albo inaczej przekazać pomysły - i nawet wtedy nie ma gwarancji, że uzyska pożądaną odpowiedź (lub nawet jakakolwiek odpowiedź!). Czasami pełen szacunku wysiłek poczyniony w celu zrozumienia downvotersów pozyska informacje, które pomogą każdemu docenić (i poprzeć) takie wysiłki w celu ulepszenia posta.

whuber

@Carl Myślę, że jeśli regularnie otrzymujesz oceny negatywne, pierwszą rzeczą do zrobienia jest rozważenie, w jaki sposób możesz poprawić swoje posty (i często masz pod nimi komentarze sugerujące ulepszenia). Mówiąc za siebie, nawet jeśli nie zgadzam się z komentatorem, okazuje się, że często podnoszą problemy, które i tak prowadzą do lepszej odpowiedzi. Powiem, że regularnie dostrzegam problemy z twoimi odpowiedziami, które prawie skłoniłyby mnie do głosowania samemu. Tam, gdzie mam na to czas, staram się zostawić komentarz.

Glen_b

Zwróć uwagę, że wiele problemów z regresją krokową - takich jak problemy z szacunkami odchylonymi od 0, standardowe błędy odchylone w kierunku 0, nominalne wskaźniki błędów typu I znacznie niższe niż rzeczywiste i wiele innych problemów wciąż występuje w przypadku wszystkich podzbiorów - - w rzeczywistości jest to problem z niemal każdą formą optymalizacji (rozdział 4 strategii modelowania regresji Franka Harrella, jest użytecznym odniesieniem). Kurczenie się / regularyzacja może złagodzić niektóre z tych problemów (zwłaszcza tendencję selekcji do szacunków błędu wstępnego na zewnątrz), a ocena poza próbą jest ważnym narzędziem dla wielu z nich.

Glen_b

Wycie spowodowane przez regresję stopniową

Odpowiedzi: