Niedawno dostałem poprawkę do mojego artykułu badawczego i poniżej znajduje się komentarz recenzenta do mojego artykułu:
wyniki uzyskane z jednego modelu nie są do końca przekonujące, szczególnie regresja liniowa zwykle ma braki w radzeniu sobie z wartościami odstającymi. Sugeruję, aby autorzy spróbowali również regresji logistycznej i porównać odpowiednie wyniki z bieżącymi wynikami. Gdyby uzyskać podobne obserwacje, wyniki byłyby bardziej solidne.
Czy komentarz recenzenta jest prawidłowy? Czy regresja logistyczna jest lepsza niż wielokrotna regresja liniowa?
Problem polega na tym, że moja zmienna zależna nie jest kategoryczna, to zmienna skalowana. Co mogę teraz zrobić? Jaką inną metodę regresji zalecasz do oceny mojego modelu?
Wynik jest zmienną zależną w poniższej tabeli. Czas trwania, częstotliwość, kadencja i ostatni wynik to zmienne niezależne.
Wyodrębniłem te zmienne z witryny i postawiłem hipotezę, że te zmienne niezależne mają znaczący wpływ na wynik . Dlatego reprezentuję następujące modele:
Nawiasem mówiąc, wartość R podniesiona do kwadratu dla tego modelu liniowego wynosi 0,316! Recenzent skomentował również tę wartość:
wyniki nie są przekonujące, ponieważ nie ma wskaźnika jakości wyuczonych współczynników. Mały R ^ 2 nie może oznaczać dobrej wydajności, ponieważ model może być przeregulowany.
Czy 0,316 jest bardzo niskie dla R do kwadratu? W poprzednich artykułach bardzo często widziałem podobne wartości.
Odpowiedzi:
Model regresji logistycznej proporcjonalnej szans porządkowych powinien dobrze działać w przypadku tego problemu. Aby uzyskać wydajną implementację, która może pozwolić na tysiące unikalnych wartości , zobacz funkcję w pakiecie R.Y
orm
rms
źródło
można także wypróbować uporządkowane modele probit / logit, przypisując wartości 1, 2,3 i 4 do wyników odpowiednio w 1., ....., 4. percentylu.
źródło
Możesz dychotomizować (przekonwertować na zmienną binarną) wynik. Jeśli wynik wynosi od 0 do 100, możesz przypisać 0 do dowolnego wyniku poniżej 50, a w przeciwnym razie 1. Nigdy wcześniej nie słyszałem, że jest to dobry sposób radzenia sobie z wartościami odstającymi. Może to po prostu ukryć wartości odstające, ponieważ niemożliwe będzie rozróżnienie bardzo wysokich lub niskich wyników. To nie ma dla mnie większego sensu, ale możesz spróbować.
Co ważniejsze, dlaczego logujesz przekształcać wszystkie zmienne towarzyszące i zmienną odpowiedzi? Wpłynie to na twójβ szacunki i twoje R2) (Myślę).
Również recenzent mówi trochęR2) sugeruje przeregulowanie? Myślałam, że nadmierne dopasowanie jest wtedy, gdy jesteśR2) jest wysoki, ale Twój model słabo radzi sobie z nowymi danymi (tj. przepełnia twoje dane, ale nie uogólnia na nowe dane). Nadmierne dopasowanie zdarza się, gdy masz niewiele obserwacji, które próbujesz przewidzieć na podstawie dużej liczby parametrów. To właśnie robisz w swoim Modelu 2, ponieważ masz 8 obserwacji, które próbujesz wyjaśnić za pomocą 7 parametrów.
Nie zamierzam udawać, że wiem dużo o statystykach, ale wydaje mi się, na podstawie jego komentarzy, że ten recenzent może wiedzieć jeszcze mniej.
źródło
Możliwe jest zastosowanie regresji logistycznej nawet do ciągłej zmiennej zależnej. Ma to sens, jeśli chcesz się upewnić, że przewidywane
score
jest zawsze w granicach[0, 100]
(na podstawie twoich zrzutów ekranu sądzę, że jest w skali 100-punktowej).Aby to osiągnąć, po prostu podziel swój wynik przez 100 i uruchom regresję logistyczną za pomocą tej
[0,1]
zmiennej docelowej, tak jak w tym pytaniu - możesz to zrobić na przykład zaR
pomocąNie wiem, czy to podejście pomaga w przypadku wartości odstających - zależy to od oczekiwanych wartości odstających. Ale czasem poprawia to dopasowanie (nawetR2) , jeśli zmienna zależna ma naturalne dolne i górne granice.
Co do drugiego pytaniaR2)≈ 0,3 może być najlepszym, co możesz wycisnąć z danych, bez nadmiernego dopasowania. Jeśli zbudujesz swój model w celu wnioskowania, niskiR2) jest całkowicie w porządku, o ile ważne dla Ciebie współczynniki są znaczące. Jeśli chcesz sprawdzić, czy model jest przepasowany, możesz to sprawdzićR2) na zestawie testowym , a nawet przeprowadzić weryfikację krzyżową.
źródło