Nie wiem, czy mogę udzielić ci pełnej odpowiedzi, ale mogę dać ci kilka przemyśleń, które mogą być pomocne. Po pierwsze, wszystkie modele / testy statystyczne mają założenia. Jednak regresja logistyczna bardzo nie zakłada, że reszty są normalnie rozłożone, ani że wariancja jest stała. Zakłada się raczej, że dane są dystrybuowane jako dwumian, , to znaczy z liczbą prób Bernoulliego równą liczbie obserwacji w tym dokładnym zestawie wartości zmiennych towarzyszących oraz z prawdopodobieństwem związanym z tym zestawem wartości zmiennych towarzyszących. Pamiętaj, że wariancja dwumianu wynosi . Zatem jeślib( nxja, pxja)n p ( 1 - p )nróżnią się na różnych poziomach współzmiennej, wariancje również będą. Ponadto, jeśli którakolwiek z zmiennych towarzyszących jest w ogóle związana ze zmienną odpowiedzi, wówczas prawdopodobieństwa będą się różnić, a zatem i wariancje. Są to ważne fakty dotyczące regresji logistycznej.
Po drugie, porównania modeli są zwykle przeprowadzane między modelami o różnych specyfikacjach (na przykład z różnymi zestawami zmiennych towarzyszących), a nie dla różnych podzbiorów danych. Szczerze mówiąc, nie jestem pewien, jak należałoby to zrobić. Z modelu liniowego, można spojrzeć na 2 s, aby zobaczyć, jak wiele lepsze dopasowanie jest z danymi nieprawidłowych wykluczonych, ale to tylko charakter opisowy, a trzeba wiedzieć, że będzie miał iść w górę. W przypadku regresji logistycznej nie można jednak zastosować standardowej wartości . Istnieją różne „pseudo-R2)R2)R2)R2)s ”, które zostały opracowane w celu zapewnienia podobnych informacji, ale często uważa się je za wadliwe i nie są często używane. Przegląd różnych istniejących pseudo- s znajduje się tutaj . Aby zapoznać się z ich dyskusją i krytyką, zobacz tutaj . Inną możliwością może być podważenie beta z uwzględnionymi wartościami odstającymi i bez nich, aby zobaczyć, jak ich wykluczenie przyczynia się do ustabilizowania ich rozkładu próbkowania. Ponownie byłby to tylko opisowy (tj. Nie stanowiłby testu, który powiedziałby ci, który model - er, podzbiór twoich danych - wolisz) i wariancja musiałaby spaść. Te rzeczy są prawdziwe, zarówno dla pseudo-R2)R2)si dystrybucjami typu jackknifed, ponieważ wybrałeś te dane do wykluczenia na podstawie faktu, że wydają się ekstremalne.
gung - Przywróć Monikę
źródło
Zgadzam się ogólnie z powyższym komentarzem AdamO - zakładając, że 1 miliarder reprezentuje 1/100 populacji, jest całkowicie w porządku. Jeśli jednak obecność 1 miliardera wypaczy dane tak bardzo, że wpłynie to na prognozy dla pozostałych 99 osób, usunę 1 miliardera. Wolę się mylić, przewidując wartość odstającą niż wszyscy inni.
Powiedziawszy to, jeśli usuniesz punkty danych za pomocą wartości D Cooka (tj. Cokolwiek> 4 / df), możesz użyć obszaru pod krzywymi ROC dla obu modeli, aby sprawdzić poprawę.
źródło