Jak wybrać prawdopodobieństwo odcięcia dla rzadkiego zdarzenia Regresja logistyczna

11

Mam 100 000 obserwacji (9 zmiennych fikcyjnych) z 1000 pozytywów. Regresja logistyczna powinna w tym przypadku działać dobrze, ale prawdopodobieństwo odcięcia mnie zastanawia.

W powszechnej literaturze wybieramy 50% wartości odcięcia, aby przewidzieć 1 i 0. Nie mogę tego zrobić, ponieważ mój model daje maksymalną wartość ~ 1%. Więc próg może wynosić 0,007 lub gdzieś wokół niego.

Rozumiem ROCkrzywe i jak obszar pod krzywą może pomóc mi wybrać między dwoma modelami LR dla tego samego zestawu danych. Jednak ROC nie pomaga mi wybrać optymalnego prawdopodobieństwa odcięcia, którego można użyć do przetestowania modelu na danych poza próbą.

Czy powinienem po prostu użyć wartości odcięcia, która minimalizuje misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Dodano -> W przypadku tak niskiego wskaźnika zdarzeń na moje wskaźniki błędnej klasyfikacji wpływa ogromna liczba fałszywych trafień. Chociaż stopa wydaje się dobra, ponieważ całkowity rozmiar wszechświata jest również duży, ale mój model nie powinien mieć tylu fałszywych wyników pozytywnych (ponieważ jest to model zwrotu z inwestycji). 5/10 współczynników jest znaczących.

Maddy
źródło
3
To relatywny koszt dwóch rodzajów błędnej klasyfikacji wraz z ich prawdopodobieństwami powinien określić granicę. Jeśli chcesz tylko zweryfikować model prawdopodobieństwa, oblicz jego AUC lub wynik Briera po zastosowaniu do zestawu testowego.
Scortchi - Przywróć Monikę
To może być dobra odpowiedź: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin
Odpowiednie odpowiedzi tutaj i tutaj .
Scortchi - Przywróć Monikę
@ Tae-SungShin Dzięki za link. To jest pomocne. Myślę, że nie ma jednoznacznej odpowiedzi na moje pytanie. Mój model cierpi na dużą liczbę fałszywych trafień.
Maddy
@Scortchi Thanks. Korzystanie z AUC mogłoby być przydatne, gdybym porównywał 2 różne modele regresji logistycznej (z dodatkowymi predyktorami), ale nie jestem pewien, jak to pomaga w moim przypadku. Daje mi to całkowite prawdopodobieństwo sukcesu mojego modelu, ale nie pomaga mi wybrać prawdopodobieństwa odcięcia.
Maddy

Odpowiedzi:

5

Nie zgadzam się, że 50% wartość graniczna jest z natury uzasadniona lub poparta literaturą. Jedynym przypadkiem, w którym takie ograniczenie może być uzasadnione, jest projekt kontroli przypadków, w którym występowanie wyniku wynosi dokładnie 50%, ale nawet wtedy wybór byłby uzależniony od kilku warunków. Myślę, że głównym uzasadnieniem wyboru granicy odcięcia jest pożądana charakterystyka działania testu diagnostycznego.

Można wybrać punkt odcięcia, aby uzyskać pożądaną czułość lub swoistość. Przykład tego można znaleźć w literaturze dotyczącej wyrobów medycznych. Czułość jest często ustawiona na stałą wartość: przykłady obejmują 80%, 90%, 95%, 99%, 99,9% lub 99,99%. Kompromis czułości / swoistości należy porównać z szkodami wynikającymi z błędów typu I i błędów typu II. Często, podobnie jak w przypadku testów statystycznych, szkoda błędu typu I jest większa, więc kontrolujemy to ryzyko. Mimo to szkody te rzadko są kwantyfikowalne. Z tego powodu mam poważne zastrzeżenia do odcięcia metod selekcji, które opierają się na jednej mierze dokładności predykcyjnej: niepoprawnie przekazują, że szkody mogą i zostały określone ilościowo.

Twój problem zbyt wielu fałszywych trafień jest przykładem czegoś przeciwnego: błąd typu II może być bardziej szkodliwy. Następnie możesz ustawić próg, aby osiągnąć pożądaną specyficzność i zgłosić osiągniętą czułość przy tym progu.

Jeśli okaże się, że oba są zbyt niskie, aby można je było zaakceptować w praktyce, model ryzyka nie działa i należy go odrzucić.

Czułość i swoistość można łatwo obliczyć lub sprawdzić z tabeli w całym zakresie możliwych wartości odcięcia. Problem z ROC polega na tym, że pomija on określone informacje o odcięciu w grafice. ROC nie ma zatem znaczenia przy wyborze wartości odcięcia.

AdamO
źródło