Chciałbym badać rzadkie zdarzenia w ograniczonej populacji. Ponieważ nie jestem pewien, która strategia najlepiej się nadaje, byłbym wdzięczny za wskazówki i referencje związane z tą kwestią, chociaż jestem świadomy, że została w dużej mierze uwzględniona. Po prostu nie wiem od czego zacząć.
Mój problem dotyczy nauk politycznych i mam skończoną populację złożoną z 515 843 zapisów. Są one powiązane ze zmienną zależną binarnie z 513 334 „0” i 2 509 „1”. Mogę zliczyć moje „1” jako rzadkie zdarzenia, ponieważ stanowią one tylko 0,49% populacji.
Mam zestaw około 10 niezależnych zmiennych, z którymi chciałbym zbudować model, aby wyjaśnić obecność „1”. Jak wielu z nas, czytałem artykuł King & Zeng z 2001 roku na temat korekty rzadkich zdarzeń. Ich podejście polegało na zastosowaniu projektu kontroli wielkości liter w celu zmniejszenia liczby „0”, a następnie zastosowaniu korekcji do przechwytywania.
Jednak ten post mówi, że argument King & Zeng nie był konieczny, jeśli już zebrałem moje dane dla całej populacji, co jest moim przypadkiem. Dlatego muszę użyć klasycznego modelu logit. Niestety dla mnie, chociaż uzyskuję dobre znaczące współczynniki, mój model jest całkowicie bezużyteczny pod względem predykcji (nie przewiduje 99,48% moich „1”).
Po przeczytaniu artykułu King & Zeng, chciałem wypróbować projekt kontroli wielkości liter i wybrałem tylko 10% „0” ze wszystkimi „1”. Przy prawie takich samych współczynnikach model był w stanie przewidzieć prawie jedną trzecią „1” po zastosowaniu do pełnej populacji. Oczywiście istnieje wiele wyników fałszywie dodatnich.
Mam zatem trzy pytania, które chciałbym zadać:
1) Jeśli podejście King & Zeng jest przesądzone, gdy masz pełną wiedzę na temat populacji, dlaczego używają sytuacji, w której znają populację w swoim artykule, aby udowodnić swój punkt widzenia?
2) Jeśli mam dobre i istotne współczynniki w regresji logit, ale bardzo słabą moc predykcyjną, czy to oznacza, że zmienność wyjaśniona przez tę zmienną jest bez znaczenia?
3) Jakie jest najlepsze podejście do radzenia sobie z rzadkimi zdarzeniami? Czytałem o modelu relogit Kinga, podejściu Firtha, dokładnym logicie itp. Muszę wyznać, że zagubiłem się wśród tych wszystkich rozwiązań.
źródło
Odpowiedzi:
(1) Jeśli „masz pełną wiedzę na temat populacji”, dlaczego potrzebujesz modelu do prognozowania? Podejrzewam, że domyślnie traktujesz je jako próbkę z hipotetycznej super-populacji - patrz tutaj i tutaj . Czy więc powinieneś wyrzucić obserwacje z próbki? Nie. King i Zeng nie zalecają tego:
(2) Głównym problemem tutaj jest zastosowanie niewłaściwej reguły punktacji do oceny wydajności predykcyjnej twojego modelu. Załóżmy, że twój model był prawdziwy , tak więc dla każdej osoby wiedziałeś o prawdopodobieństwie rzadkiego zdarzenia - powiedzmy, że ugryzł cię wąż w następnym miesiącu. Czego więcej uczysz się, ustanawiając arbitralne ograniczenie prawdopodobieństwa i przewidując, że te powyżej niego zostaną ugryzione, a te poniżej niego nie będą? Jeśli dokonasz granicy 50%, prawdopodobnie przewidzisz, że nikt się nie ugryzie. Jeśli sprawisz, że będzie wystarczająco niski, możesz przewidzieć, że wszyscy zostaną ugryzieni. Więc co? Rozsądne zastosowanie modelu wymaga dyskryminacji - komu należy podać jedyną fiolkę przeciw jadowi - lub kalibracji - dla kogo warto kupować buty, biorąc pod uwagę ich koszt w stosunku do ukąszenia węża ?.
źródło
Z jednej strony zastanawiam się, ile niedokładności twojego modelu polega na tym, że proces jest trudny do przewidzenia, a twoje zmienne nie są wystarczające, aby to zrobić. Czy istnieją inne zmienne, które mogą wyjaśnić więcej?
Z drugiej strony, jeśli możesz rzucić zmienną zależną jako problem liczenia / porządku (np. Straty w wyniku konfliktu lub czas trwania konfliktu), możesz wypróbować modele regresji zliczania zerowego lub modele przeszkód. Mogą występować takie same problemy z niewłaściwą definicją między 0 a 1, ale niektóre konflikty, z którymi skorelowane są zmienne, mogą zerwać.
źródło
Oprócz próbkowania w dół populacji większościowej możesz także przesłuchiwać rzadkie zdarzenia, ale pamiętaj, że nadmierne próbkowanie klasy mniejszościowej może prowadzić do nadmiernego dopasowania, więc sprawdź to dokładnie.
Ten artykuł może dostarczyć więcej informacji na ten temat: Yap, Bee Wah i in. „Zastosowanie nadmiernego próbkowania, niepełnego próbkowania, tworzenia worków i usprawniania w postępowaniu z niezrównoważonymi zestawami danych”. pdf
Chciałbym również powiązać to pytanie, ponieważ dotyczy ono również tego samego problemu
źródło
Twoje pytanie sprowadza się do tego, jak mogę nakłonić do regresji logit, aby znaleźć lepsze rozwiązanie. Ale czy jesteś nawet pewien, że istnieje lepsze rozwiązanie? Czy mając tylko dziesięć parametrów, byłeś w stanie znaleźć lepsze rozwiązanie?
Wypróbowałbym bardziej skomplikowany model, na przykład dodając warunki produktu na wejściu lub dodając maksymalną warstwę po stronie docelowej (tak, że zasadniczo masz wiele regresorów logistycznych dla różnych adaptacyjnie odkrytych podzbiorów docelowych 1).
źródło
Świetne pytanie.
Moim zdaniem problem polega na tym, czy próbujesz wnioskować (czy jesteś zainteresowany tym, co mówią ci współczynniki?), Czy przewidywać. Jeśli to drugie, możesz pożyczyć modele z uczenia maszynowego (BART, randomForest, wzmocnione drzewa itp.), Które prawie na pewno wykonają lepszą pracę w przewidywaniu niż logit. Jeśli wnioskujesz, a masz tak wiele punktów danych, spróbuj dołączyć rozsądne terminy interakcji, warunki wielomianowe itp. Alternatywnie możesz wykonać wnioskowanie z BART, jak w tym artykule:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
Pracowałem ostatnio nad rzadkimi zdarzeniami i nie miałem pojęcia, jak bardzo rzadkie przypadki mogą wpłynąć na analizę. Próbkowanie w dół 0 przypadków jest koniecznością. Jedną ze strategii znalezienia idealnego odsetka osób nieobjętych próbą byłoby
Mam nadzieję że to pomoże. JS
źródło