Dodawanie wag dla mocno wypaczonych zestawów danych w regresji logistycznej

9

Używam standardowej wersji regresji logistycznej, aby dopasować moje zmienne wejściowe do binarnych zmiennych wyjściowych.

Jednak w moim problemie negatywne wyniki (0s) znacznie przewyższają pozytywne wyniki (1s). Stosunek wynosi 20: 1. Kiedy trenuję klasyfikator, wydaje się, że nawet cechy, które zdecydowanie sugerują możliwość uzyskania wyniku dodatniego, nadal mają bardzo niskie (wysoce ujemne) wartości odpowiadających im parametrów. Wydaje mi się, że tak się dzieje, ponieważ jest zbyt wiele negatywnych przykładów, które ciągną parametry w ich kierunku.

Zastanawiam się więc, czy mogę dodać wagi (powiedzmy, używając 20 zamiast 1) dla pozytywnych przykładów. Czy to w ogóle skorzysta? A jeśli tak, to jak dodać wagi (w poniższych równaniach).

Funkcja kosztów wygląda następująco:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Gradient tej funkcji kosztu (wrt θ) jest:

grad=((h(xθ)y)X)

Tutaj m = liczba przypadków testowych, x = macierz cech, y = wektor wyjściowy, h= funkcja sigmoidalna, θ = parametry, których próbujemy się nauczyć.

W końcu uruchamiam opadanie gradientu, aby znaleźć najniższą Jmożliwy. Implementacja wydaje się działać poprawnie.

arahant
źródło
Cześć, mam dokładnie ten sam problem, który opisałeś. W moich danych wiele przykładów jest negatywnych i bardzo niewiele pozytywnych, a dla mnie ważniejsze jest prawidłowe sklasyfikowanie pozytywnych, nawet jeśli oznacza to pominięcie niektórych negatywnych. Wygląda na to, że stosuję te same metody, co ty, ponieważ używam tej samej funkcji kosztu i równań gradientowych. Do tej pory przeprowadziłem kilka testów i uzyskałem następujące wyniki: - Z 7 parametrami , Rozmiar próbki treningowej: 225000 , Rozmiar próbki testowej: 75000 Wyniki: 92% dokładności , chociaż w przypadkach pozytywnych tylko 11% w
Cartz
1
To, co robisz, jest myleniem funkcji straty z maksymalnym prawdopodobieństwem. Nieważony mle robi „właściwą rzecz” z perspektywy wnioskowania i odzwierciedla, jak rzadki jest wynik dla każdej specyfikacji współzmiennej. Mógłbyś także mieć separację - tak by się stało, że określony zestaw zmiennych towarzyszących, który może doskonale przewidzieć odpowiedź w danych treningowych - prowadziłby do dużych wartości ujemnych.
probabilislogiczny
2
Klasyfikacja nie jest dobrym celem i nie jest sposobem, w jaki opracowano regresję logistyczną. Pojęcie klasyfikacji powoduje wszystkie wymienione tutaj problemy. Trzymaj się przewidywanych prawdopodobieństw i właściwych zasad punktacji dokładności
Frank Harrell
1
@arahant To tylko częściowo prawda. Binarna regresja logistyczna z łączem logit jest nadal ważna, ponieważ współczynniki na zmiennych towarzyszących wynoszą MLE i odzwierciedlają wpływ, jaki te zmienne wywierają na szanse klasy 1 w porównaniu z klasą 0. Jednak w układzie sterowania przypadkami przechwytywanie jest zawsze ustalone, aby odzwierciedlić proporcję klasy 1 do klasy 0, i całkowicie poprawne jest dostosowanie terminu przechwytywania w celu przypisania klas zgodnie z np. pewną funkcją kosztu błędnej klasyfikacji lub innym procesem, ponieważ nie zmienia to współczynników na zmiennych.
Sycorax mówi Przywróć Monikę
1
Skąd ktoś pomyślał, że odcięcie jest potrzebne / pożądane / pożądane?
Frank Harrell

Odpowiedzi:

8

To nie byłoby już maksymalne prawdopodobieństwo. Tak ekstremalny rozkładYprzedstawia problemy tylko wtedy, gdy używasz klasyfikatora, tj. jeśli obliczasz proporcję sklasyfikowaną poprawnie, niewłaściwa zasada punktacji. Szacunkowe prawdopodobieństwa ze standardowego maksymalnego prawdopodobieństwa są prawidłowe. Jeżeli łączna liczba „wyników dodatnich” jest mniejsza niż 15-krotność liczby zmiennych kandydujących, może być uzasadnione oszacowanie kar za maksymalne prawdopodobieństwo.

Frank Harrell
źródło
Frank, czy jest jakieś odniesienie lub coś, co potwierdziłoby twoje szczegóły „15 razy ...”? Mam podobne nierówności w niektórych danych, których używam regresji logistycznej zamiast metody ROC opracowanej przez innych badaczy. Niedawno natknąłem się na uprzedzenie małych próbek i dodałem opcję redukcji uprzedzeń Firtha jako opcję dopasowania w moim kodzie / pakiecie. Gdy piszę to do czasopisma, warto mieć coś, co można cytować zgodnie z podobnymi regułami. Przepraszam, jeśli referencją jest twoja książka RMS, ponieważ znajduje się ona na moich półkach, ale jeszcze jej nie szukałem.
Gavin Simpson
Istnieją artykuły na temat stronniczości małych próbek i wartości kary Firtha. Nie mam ich pod ręką. Odnośnie 15: 1 patrz biostat.mc. vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank Harrell
Dzięki, Frank - najbardziej zależało mi na problemach 15: 1. Mam kilka publikacji na temat błędu małych prób i metody Firtha - ale jeśli miałbyś coś pod ręką, byłbym bardzo wdzięczny, gdybyś dał mi znać, co to było.
Gavin Simpson
3
Na wszelki wypadek, gdyby ktoś inny źle odczytał powyższe, tak jak ja na początku. 20: 1 w pytaniu to stosunek obserwacji negatywnych do pozytywnych. 15: 1 w odpowiedzi Franka Harrella jest czymś innym: stosunkiem pozytywnych obserwacji do zmiennych niezależnych od kandydata.
Adam Bailey,
Ekstremalny rozkład stanowi również problem, ponieważ zwiększa szansę na quasi-całkowitą separację, szczególnie jeśli masz predyktory jakościowe. Tu również pomaga kara.
prawdopodobieństwo prawdopodobieństwa
3

W takich przypadkach często lepiej jest użyć elastycznego łącza zamiast łącza logistycznego, które może uchwycić tę asymetrię. Na przykład skośno-normalny, GEV , sinh-arcsinh i zawarte w nim odniesienia. Jest wiele innych, ale nie mogę opublikować więcej niż 2 linków.

Tyrion
źródło
Czy możesz podać jakieś wyjaśnienie, że inne funkcje łącza są lepsze?
DW