Ok, więc myślę, że mam wystarczająco przyzwoitą próbkę, biorąc pod uwagę ogólną zasadę 20: 1: dość dużą próbkę (N = 374) dla łącznie 7 potencjalnych zmiennych predykcyjnych.
Mój problem jest następujący: bez względu na to, jakiego zestawu zmiennych predykcyjnych używam, klasyfikacje nigdy nie są lepsze niż specyficzność 100% i czułość 0%. Jakkolwiek niezadowalający, może to być najlepszy możliwy wynik, biorąc pod uwagę zestaw zmiennych predykcyjnych kandydujących (od których nie mogę się odbiegać).
Ale nie mogłem przestać myśleć, że dam radę lepiej, więc zauważyłem, że kategorie zmiennej zależnej były dość nierównomiernie zrównoważone, prawie 4: 1. Czy bardziej zrównoważona podpróbka może poprawić klasyfikację?
Odpowiedzi:
Równowaga w zestawie treningowym
W przypadku modeli regresji logistycznej niezrównoważone dane treningowe wpływają tylko na oszacowanie przechwytywania modelu (chociaż to oczywiście wypacza wszystkie przewidywane prawdopodobieństwa, co z kolei narusza twoje przewidywania). Na szczęście korekcja przechwytywania jest prosta: pod warunkiem, że znasz prawdziwą proporcję zer i jedynek i wiesz, jakie są proporcje w zestawie treningowym, możesz zastosować korekcję rzadkich zdarzeń do przechwytywania. Szczegóły znajdują się w King and Zeng (2001) [ PDF ].
Te „korekty rzadkich zdarzeń” zostały opracowane dla projektów badań kontroli przypadków, stosowanych głównie w epidemiologii, które wybierają przypadki, wybierając stałą, zwykle zrównoważoną liczbę 0 przypadków i 1 przypadków, a następnie muszą skorygować wynikające z tego odchylenie w doborze próby. Rzeczywiście, możesz szkolić klasyfikatora w ten sam sposób. Wybierz ładną, zrównoważoną próbkę, a następnie popraw przechwycenie, aby uwzględnić fakt, że wybrałeś zmienną zależną, aby dowiedzieć się więcej o rzadszych klasach, niż próba losowa byłaby w stanie ci powiedzieć.
Dokonywanie prognoz
Na pokrewny, ale odrębny temat: Nie zapominaj, że powinieneś być inteligentnym progiem, aby przewidywać. Nie zawsze najlepiej jest przewidzieć 1, gdy prawdopodobieństwo modelu jest większe 0,5. Kolejny próg może być lepszy. W tym celu należy przyjrzeć się krzywym charakterystyki odbiornika (ROC) klasyfikatora, a nie tylko jego przewidywalnemu sukcesowi z domyślnym progiem prawdopodobieństwa.
źródło
predict
i obliczyć dla każdego, czy jest ono wyższe niż nowy próg.Problemem nie jest to, że klasy same w sobie są niezrównoważone, chodzi o to, że klasy mniejszości mogą nie mieć wystarczających wzorców, aby odpowiednio reprezentować ich rozkład. Oznacza to, że problem może powstać dla dowolnego klasyfikatora (nawet jeśli masz problem syntetyczny i wiesz, że masz prawdziwy model), a nie tylko regresję logistyczną. Dobrą rzeczą jest to, że gdy dostępnych jest coraz więcej danych, problem „nierównowagi klas” zwykle ustępuje. Powiedziawszy to, 4: 1 nie jest wcale tak niezrównoważone.
Jeśli używasz zbalansowanego zestawu danych, ważne jest, aby pamiętać, że dane wyjściowe modelu są teraz szacunkiem prawdopodobieństwa a-posteriori, przy założeniu, że klasy są równie powszechne, więc może to spowodować zbyt duże odchylenie modelu. Ważę wzorce należące do każdej klasy inaczej i wybieram wagi, minimalizując entropię krzyżową na zestawie testowym z prawidłowymi częstotliwościami klasy operacyjnej.
źródło
If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Pomyśl o podstawowych rozkładach dwóch próbek. Czy masz wystarczającą próbkę, aby zmierzyć obie subpopulacje bez ogromnej ilości błędu w mniejszej próbce?
Zobacz tutaj, aby uzyskać dłuższe wyjaśnienie.
https://statistichorizons.com/logistic-regression-for-rare-events
źródło