Strategia radzenia sobie z regresją logistyczną rzadkich zdarzeń

27

Chciałbym badać rzadkie zdarzenia w ograniczonej populacji. Ponieważ nie jestem pewien, która strategia najlepiej się nadaje, byłbym wdzięczny za wskazówki i referencje związane z tą kwestią, chociaż jestem świadomy, że została w dużej mierze uwzględniona. Po prostu nie wiem od czego zacząć.

Mój problem dotyczy nauk politycznych i mam skończoną populację złożoną z 515 843 zapisów. Są one powiązane ze zmienną zależną binarnie z 513 334 „0” i 2 509 „1”. Mogę zliczyć moje „1” jako rzadkie zdarzenia, ponieważ stanowią one tylko 0,49% populacji.

Mam zestaw około 10 niezależnych zmiennych, z którymi chciałbym zbudować model, aby wyjaśnić obecność „1”. Jak wielu z nas, czytałem artykuł King & Zeng z 2001 roku na temat korekty rzadkich zdarzeń. Ich podejście polegało na zastosowaniu projektu kontroli wielkości liter w celu zmniejszenia liczby „0”, a następnie zastosowaniu korekcji do przechwytywania.

Jednak ten post mówi, że argument King & Zeng nie był konieczny, jeśli już zebrałem moje dane dla całej populacji, co jest moim przypadkiem. Dlatego muszę użyć klasycznego modelu logit. Niestety dla mnie, chociaż uzyskuję dobre znaczące współczynniki, mój model jest całkowicie bezużyteczny pod względem predykcji (nie przewiduje 99,48% moich „1”).

Po przeczytaniu artykułu King & Zeng, chciałem wypróbować projekt kontroli wielkości liter i wybrałem tylko 10% „0” ze wszystkimi „1”. Przy prawie takich samych współczynnikach model był w stanie przewidzieć prawie jedną trzecią „1” po zastosowaniu do pełnej populacji. Oczywiście istnieje wiele wyników fałszywie dodatnich.

Mam zatem trzy pytania, które chciałbym zadać:

1) Jeśli podejście King & Zeng jest przesądzone, gdy masz pełną wiedzę na temat populacji, dlaczego używają sytuacji, w której znają populację w swoim artykule, aby udowodnić swój punkt widzenia?

2) Jeśli mam dobre i istotne współczynniki w regresji logit, ale bardzo słabą moc predykcyjną, czy to oznacza, że ​​zmienność wyjaśniona przez tę zmienną jest bez znaczenia?

3) Jakie jest najlepsze podejście do radzenia sobie z rzadkimi zdarzeniami? Czytałem o modelu relogit Kinga, podejściu Firtha, dokładnym logicie itp. Muszę wyznać, że zagubiłem się wśród tych wszystkich rozwiązań.

Damien
źródło
Liczba brzmi znajomo ... czy to możliwe, że zestaw danych o konflikcie etnicznym? Jeśli tak, to seria czasowa - wykorzystałem model przetrwania, aby odnieść wielki sukces w badaniu konfliktu etnicznego ...
Christian Sauer
Wystarczająco blisko. To zbiór danych o lokalizacji konfliktów w Afryce. Jednak badam lokalizację tych wydarzeń bez uwzględnienia czasu.
Damien
1
Ach, wiele moich spraw pochodziło z Afryki, ponieważ narastają tam konflikty etniczne. Czy studiujesz geografię? Czy rozliczenie czasu byłoby ogromnym problemem? Uznałem to za bardzo przydatne, zwłaszcza ze względu na fakt, że niektóre zmienne zmieniają się z czasem (system polityczny, zimna wojna itp.)
Christian Sauer
Korzystam z zestawu danych GED UCDP, który obejmuje lata 1989-2010. Interesują mnie czynniki geograficzne, które mogą odgrywać rolę w lokalizacji zdarzeń konfliktowych. Różnice czasowe mają z pewnością wiele do powiedzenia, ale odpowiedzi na pytania są różne. Ponadto wiele moich niezależnych zmiennych jest niedostępnych dla różnych okresów (pokrycie terenu) lub w ogóle się nie zmieniło (topografia)
Damien
1
„(nie przewiduje 99,48% moich„ 1 ”).” brzmi to tak, jakbyś stosował jakąś arbitralną regułę odcięcia [np. 0,5!] do klasyfikacji, podczas gdy cała idea regresji logistycznej polega na tym, że wynik jest prawdopodobieństwem - to od ciebie zależy, czy próg będzie równoważył fałszywe pozytywne / negatywne
seanv507

Odpowiedzi:

17

(1) Jeśli „masz pełną wiedzę na temat populacji”, dlaczego potrzebujesz modelu do prognozowania? Podejrzewam, że domyślnie traktujesz je jako próbkę z hipotetycznej super-populacji - patrz tutaj i tutaj . Czy więc powinieneś wyrzucić obserwacje z próbki? Nie. King i Zeng nie zalecają tego:

[...] w takich dziedzinach jak stosunki międzynarodowe liczba obserwowalnych 1 (takich jak wojny) jest ściśle ograniczona, dlatego w większości aplikacji najlepiej jest zebrać wszystkie dostępne 1 lub dużą ich próbkę. Jedyną prawdziwą decyzją jest wtedy, ile zera również zebrać. Jeśli zbieranie zer jest bezkosztowe, powinniśmy zebrać jak najwięcej, ponieważ więcej danych jest zawsze lepsze.

Y

(2) Głównym problemem tutaj jest zastosowanie niewłaściwej reguły punktacji do oceny wydajności predykcyjnej twojego modelu. Załóżmy, że twój model był prawdziwy , tak więc dla każdej osoby wiedziałeś o prawdopodobieństwie rzadkiego zdarzenia - powiedzmy, że ugryzł cię wąż w następnym miesiącu. Czego więcej uczysz się, ustanawiając arbitralne ograniczenie prawdopodobieństwa i przewidując, że te powyżej niego zostaną ugryzione, a te poniżej niego nie będą? Jeśli dokonasz granicy 50%, prawdopodobnie przewidzisz, że nikt się nie ugryzie. Jeśli sprawisz, że będzie wystarczająco niski, możesz przewidzieć, że wszyscy zostaną ugryzieni. Więc co? Rozsądne zastosowanie modelu wymaga dyskryminacji - komu należy podać jedyną fiolkę przeciw jadowi - lub kalibracji - dla kogo warto kupować buty, biorąc pod uwagę ich koszt w stosunku do ukąszenia węża ?.

Scortchi - Przywróć Monikę
źródło
Dziękuję za odpowiedź. Odnośnie do (1), czy właściwsze byłoby mówienie o próbce dotychczasowych obserwacji, aby uwzględnić możliwość przyszłych wydarzeń? Jeśli chodzi o (2), spędziłem chwilę próbując dowiedzieć się, co to jest zasada punktacji. Jeśli dobrze rozumiem artykuł w Wikipedii, powinienem różnicować funkcję oceniania w zależności od różnych wartości prawdopodobieństwa, dla których spodziewane jest zdarzenie, a następnie jako wartość odcięcia wybrać prawdopodobieństwo, które uzyskało najwyższy wynik. Jeśli wybiorę logarytmiczną regułę punktacji, jak mam wprowadzić oczekiwaną wartość?
Damien
1
R2)
@Scortchi; czy poparłbyś regresję logistyczną, czy nie, w przypadku liczby obserwacji / przypadków jak w operacjach operacyjnych (powiedzmy z ~ 10 ciągłymi predyktorami), jeśli wymagane jest prawdopodobieństwo przypadku, które wydaje się niedoceniane? dzięki
2957945
3

Z jednej strony zastanawiam się, ile niedokładności twojego modelu polega na tym, że proces jest trudny do przewidzenia, a twoje zmienne nie są wystarczające, aby to zrobić. Czy istnieją inne zmienne, które mogą wyjaśnić więcej?

Z drugiej strony, jeśli możesz rzucić zmienną zależną jako problem liczenia / porządku (np. Straty w wyniku konfliktu lub czas trwania konfliktu), możesz wypróbować modele regresji zliczania zerowego lub modele przeszkód. Mogą występować takie same problemy z niewłaściwą definicją między 0 a 1, ale niektóre konflikty, z którymi skorelowane są zmienne, mogą zerwać.

gregmacfarlane
źródło
4
(+1) Dobre sugestie. Chciałbym jednak zaprzeczyć, że „niedokładność” modelu jest jedynie brakiem przewidywania wielu prawdopodobieństw powyżej 50%. Jeśli „1” zwykle przewidywało prawdopodobieństwa od 10% do 40%, w porównaniu z nieco poniżej 0,5% dla „0”, byłoby to uważane za wysoką wydajność predykcyjną w wielu aplikacjach.
Scortchi - Przywróć Monikę
2

Oprócz próbkowania w dół populacji większościowej możesz także przesłuchiwać rzadkie zdarzenia, ale pamiętaj, że nadmierne próbkowanie klasy mniejszościowej może prowadzić do nadmiernego dopasowania, więc sprawdź to dokładnie.

Ten artykuł może dostarczyć więcej informacji na ten temat: Yap, Bee Wah i in. „Zastosowanie nadmiernego próbkowania, niepełnego próbkowania, tworzenia worków i usprawniania w postępowaniu z niezrównoważonymi zestawami danych”. pdf

Chciałbym również powiązać to pytanie, ponieważ dotyczy ono również tego samego problemu

Aleksiej Grigoriew
źródło
0

Twoje pytanie sprowadza się do tego, jak mogę nakłonić do regresji logit, aby znaleźć lepsze rozwiązanie. Ale czy jesteś nawet pewien, że istnieje lepsze rozwiązanie? Czy mając tylko dziesięć parametrów, byłeś w stanie znaleźć lepsze rozwiązanie?

Wypróbowałbym bardziej skomplikowany model, na przykład dodając warunki produktu na wejściu lub dodając maksymalną warstwę po stronie docelowej (tak, że zasadniczo masz wiele regresorów logistycznych dla różnych adaptacyjnie odkrytych podzbiorów docelowych 1).

Neil G.
źródło
Dzięki za odpowiedź. Na pewno spróbuję połączyć moje zmienne na różne sposoby. Ale wcześniej chcę wiedzieć, czy słabe osiągi mojego modelu wynikają z problemów technicznych, czy gdzie indziej
Damien
-1

Świetne pytanie.

Moim zdaniem problem polega na tym, czy próbujesz wnioskować (czy jesteś zainteresowany tym, co mówią ci współczynniki?), Czy przewidywać. Jeśli to drugie, możesz pożyczyć modele z uczenia maszynowego (BART, randomForest, wzmocnione drzewa itp.), Które prawie na pewno wykonają lepszą pracę w przewidywaniu niż logit. Jeśli wnioskujesz, a masz tak wiele punktów danych, spróbuj dołączyć rozsądne terminy interakcji, warunki wielomianowe itp. Alternatywnie możesz wykonać wnioskowanie z BART, jak w tym artykule:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Pracowałem ostatnio nad rzadkimi zdarzeniami i nie miałem pojęcia, jak bardzo rzadkie przypadki mogą wpłynąć na analizę. Próbkowanie w dół 0 przypadków jest koniecznością. Jedną ze strategii znalezienia idealnego odsetka osób nieobjętych próbą byłoby

  1. Weź wszystkie swoje 1, powiedzmy, że masz ich 1.
  2. Ustaw pewną wartość z = wielokrotność n1, którą narysujesz; być może zacznij od 5 i zmniejsz do 1.
  3. narysuj z * n1 0 obserwacji
  4. Oszacuj swój model na próbce danych podzbioru, upewniając się, że dokonujesz weryfikacji krzyżowej całego zestawu danych
  5. Zapisz odpowiednie miary dopasowania, którymi jesteś zainteresowany: współczynniki zainteresowania, AUC krzywej ROC, odpowiednie wartości w macierzy zamieszania itp.
  6. Powtórz kroki 2: 5 dla kolejno mniejszych ZS. Prawdopodobnie przekonasz się, że w trakcie pobierania próbek stosunek fałszywie ujemny do fałszywie dodatniego (w zestawie testowym) zmniejszy się. Oznacza to, że zaczniesz przewidywać więcej 1, miejmy nadzieję, że są to naprawdę 1, ale także wiele, które w rzeczywistości są zerami. Jeśli w tej błędnej klasyfikacji występuje punkt siodłowy, byłby to dobry stosunek próby do dołu.

Mam nadzieję że to pomoże. JS

Jim
źródło
1
(-1) Nie ma potrzeby próbkowania w dół dla regresji logistycznej. Zobacz tutaj ; wybranie odpowiedzi zmienia tylko oczekiwany punkt przecięcia, więc próbkowanie w dół po prostu zmniejsza precyzję szacowanych ilorazów szans. Regresja logistyczna daje przewidywane prawdopodobieństwa, które możesz wykorzystać do sklasyfikowania za pomocą wartości odcięcia obliczonych w celu uwzględnienia kosztów różnego rodzaju błędnej klasyfikacji lub wykorzystania do uszeregowania osób lub być zainteresowanym własnymi prawami.
Scortchi - Przywróć Monikę
Zauważysz, że nie wspomniałem o regresji logistycznej, a zamiast tego zasugerowałem, że istnieją metody (takie jak BART z próbkowaniem w dół), które prawdopodobnie są bardziej odpowiednie w rzadkich przypadkach.
Jim,
Pytanie dotyczy regresji logistycznej i tego, czy należy przeprowadzić próbkę w dół podczas próby. Wydaje się, że dyskutujesz o regresji logistycznej, pisząc o „w tym rozsądnych terminach interakcji, terminach wielomianowych”; więc nie jest jasne, że twoja rada dotycząca próbkowania w dół jest przeznaczona wyłącznie do stosowania z alternatywnymi metodami: być może zastanowisz się nad edycją odpowiedzi, aby była jasna.
Scortchi - Przywróć Monikę