Czy właśnie wymyśliłem bayesowską metodę analizy krzywych ROC?

21

Preambuła

To jest długi post. Jeśli ponownie to czytasz, pamiętaj, że poprawiłem część pytania, chociaż materiał tła pozostaje taki sam. Dodatkowo uważam, że opracowałem rozwiązanie problemu. To rozwiązanie pojawia się na dole wpisu. Dzięki CliffAB za wskazanie, że moje oryginalne rozwiązanie (edytowane z tego postu; zobacz historię edycji tego rozwiązania) koniecznie wygenerowało stronnicze oszacowania.

Problem

W problemach z klasyfikacją uczenia maszynowego jednym ze sposobów oceny wydajności modelu jest porównanie krzywych ROC lub obszaru pod krzywą ROC (AUC). Jednak obserwuję, że nie ma cennej dyskusji na temat zmienności krzywych ROC lub oszacowań AUC; to znaczy, że są to statystyki szacowane na podstawie danych, a więc związane są z nimi pewne błędy. Scharakteryzowanie błędu w tych szacunkach pomoże scharakteryzować, na przykład, czy jeden klasyfikator jest rzeczywiście lepszy od drugiego.

Opracowałem następujące podejście, które nazywam analizą Bayesowską krzywych ROC, aby rozwiązać ten problem. Myślę o tym problemie w dwóch kluczowych spostrzeżeniach:

  1. Krzywe ROC składają się z oszacowanych wielkości z danych i podlegają analizie bayesowskiej.

    Krzywa ROC składa się z wykreślenia rzeczywistej dodatniej stopy względem fałszywie dodatniej stopy , z których każda jest oszacowana na podstawie danych. Uważam i funkcje , próg decyzja używane do sortowania klasy A z B (głosów drzewa w lesie losowej, odległość od hiperpłaszczyzny w SVM, przewidywanych prawdopodobieństw w regresji logistycznej, itd.). Zmiana wartości progu decyzyjnego zwróci różne oszacowania i . Ponadto możemy rozważyćF P R ( θ ) T P R F P R θ θ T P R F P R T P R ( θ )TPR(θ)FPR(θ)TPRFPRθθTPRFPRTPR(θ)być oszacowaniem prawdopodobieństwa sukcesu w sekwencji prób Bernoulliego. W rzeczywistości, TPR jest zdefiniowana jako która jest również MLE z dwumianowego prawdopodobieństwem sukcesu w eksperymencie z sukcesów i całkowitej prób.TPTP+FN>0TPTP+FN,TPTP+FN>0

    Tak więc, biorąc pod uwagę, że dane wyjściowe i są zmiennymi losowymi, stajemy przed problemem oszacowania prawdopodobieństwa sukcesu eksperymentu dwumianowego, w którym liczba sukcesów i niepowodzeń jest dokładnie znana (biorąc pod uwagę przez , , i , które, jak zakładam, są naprawione). Konwencjonalnie po prostu używa się MLE i zakłada się, że TPR i FPR są ustalone dla określonych wartościF P R ( θ ) T P F P F N T N θ θTPR(θ)FPR(θ)TPFPFNTNθ. Ale w mojej bayesowskiej analizie krzywych ROC rysuję tylne symulacje krzywych ROC, które uzyskuje się poprzez narysowanie próbek z rozkładu tylnego na krzywych ROC. Standardowym modelem Bayesana dla tego problemu jest prawdopodobieństwo dwumianowe z beta przed prawdopodobieństwem sukcesu; rozkład późniejszy prawdopodobieństwa sukcesu jest również beta, więc dla każdego mamy rozkład tylny wartości TPR i FPR. To prowadzi nas do mojej drugiej obserwacji.θ

  2. Krzywe ROC nie maleją. Zatem po pobraniu próbki wartości i istnieje zerowe prawdopodobieństwo próbkowania punktu w przestrzeni ROC „na południowy wschód” próbkowanego punktu. Jednak próbkowanie z ograniczeniem kształtu jest trudnym problemem.F P R ( θ )TPR(θ)FPR(θ)

Podejście bayesowskie można wykorzystać do symulacji dużej liczby AUC na podstawie jednego zestawu danych szacunkowych. Na przykład 20 symulacji wygląda tak w porównaniu do oryginalnych danych. Symulowane krzywe ROC

Ta metoda ma wiele zalet. Na przykład prawdopodobieństwo, że AUC jednego modelu jest większe od drugiego, można bezpośrednio oszacować, porównując AUC ich tylnych symulacji. Oszacowania wariancji można uzyskać za pomocą symulacji, która jest tańsza niż metody ponownego próbkowania, a szacunki te nie wiążą się z problemem skorelowanych próbek, które wynikają z metod ponownego próbkowania.

Rozwiązanie

Opracowałem rozwiązanie tego problemu, czyniąc trzecią i czwartą uwagę na temat natury problemu, oprócz dwóch powyższych.

  1. F P R ( θ )TPR(θ) i mają krańcowe gęstości, które można poddać symulacji.FPR(θ)

    Jeśli (vice ) jest rozkładem losowym o rozkładzie beta z parametrami i (vice i ), możemy również rozważyć, jaka gęstość TPR jest uśredniana dla kilku różnych wartości które odpowiadają naszej analizie. Oznacza to, że możemy rozważyć hierarchiczny proces, w którym próbkuje się wartość z kolekcji wartości uzyskanych przez nasze prognozy modelu poza próbą, a następnie próbkuje wartość . Rozkład na wynikowe próbkiTPR(θ)FPR(θ)TPFNFPTNθθ~θTPR(θ~)TPR(θ~)wartości to gęstość prawdziwej wartości dodatniej, która jest bezwarunkowa dla samej . Ponieważ zakładamy model beta dla , wynikowy rozkład jest mieszaniną rozkładów beta, z liczbą składników równą wielkości naszej kolekcji i współczynnikami mieszanki .θTPR(θ)cθ1/c

    W tym przykładzie uzyskałem następujący CDF na TPR. W szczególności ze względu na degenerację rozkładów beta, w których jeden z parametrów wynosi zero, niektóre składniki mieszaniny mają funkcję delta Diraca przy 0 lub 1. To powoduje nagłe skoki przy 0 i 1. Te „skoki” oznaczają, że gęstości te nie są ani ciągłe, ani dyskretne. Wybór wcześniejszego, który jest dodatni w obu parametrach, spowodowałby „wygładzenie” tych nagłych skoków (nie pokazano), ale wynikowe krzywe ROC zostaną przesunięte w kierunku wcześniejszego. To samo można zrobić dla FPR (nie pokazano). Pobieranie próbek z gęstości krańcowych jest prostym zastosowaniem odwrotnego próbkowania.

CDF TPR

  1. Aby rozwiązać wymaganie dotyczące ograniczenia kształtu, musimy po prostu posortować TPR i FPR niezależnie.

    Wymóg nie zmniejszania jest taki sam, jak wymóg, aby próbki marginalne z TPR i FPR były sortowane niezależnie - to znaczy kształt krzywej ROC jest całkowicie określony przez wymóg, aby najmniejszą wartość TPR sparować z najmniejszą FPR wartość i tak dalej, co oznacza, że ​​konstrukcja losowej próbki o ograniczonym kształcie jest tutaj trywialna. W przypadku wcześniejszego niepoprawnego symulacje dostarczają dowodów, że skonstruowanie krzywej ROC w ten sposób daje próbki o średniej AUC, która jest zbieżna z pierwotną AUC na granicy dużej liczby próbek. Poniżej znajduje się KDE 2000 symulacji.Beta(0,0)

wprowadź opis zdjęcia tutaj

Porównanie do Bootstrap

W długiej dyskusji na czacie z @AdamO (dzięki, AdamO!) Zauważył, że istnieje kilka ustalonych metod porównywania dwóch krzywych ROC lub charakteryzowania zmienności pojedynczej krzywej ROC, w tym bootstrap. Tak więc w ramach eksperymentu próbowałem bootstrapować mój przykład, który jako obserwacji w zestawie wstrzymań i porównując wyniki z metodą bayesowską. Wyniki są porównane poniżej (Implementacja bootstrap tutaj jest prostym bootstrap - losowe próbkowanie z zamiennikiem wielkości oryginalnej próbki. Czytanie kursorów na bootstrapach ujawnia znaczne luki w mojej wiedzy na temat metod ponownego próbkowania, więc być może nie jest to odpowiednie podejście).n=20

wprowadź opis zdjęcia tutaj

Ta demonstracja pokazuje, że średnia wartość bootstrap jest tendencyjna poniżej średniej z oryginalnej próbki i że KDE bootstrap daje dobrze zdefiniowane „garby”. Geneza tych garbów nie jest tajemnicza - krzywa ROC będzie wrażliwa na włączenie każdego punktu, a efekt małej próbki (tutaj, n = 20) jest taki, że podstawowa statystyka jest bardziej wrażliwa na włączenie każdego punktu punkt. (Z naciskiem ten wzór nie jest artefaktem przepustowości jądra - zwróć uwagę na wykres dywanika. Każdy pasek to kilka powtórzeń bootstrapu, które mają tę samą wartość. Bootstrap ma 2000 powtórzeń, ale liczba różnych wartości jest znacznie mniejsza. może stwierdzić, że garby są nieodłączną cechą procedury ładowania początkowego.) Natomiast średnie szacunki AUC Bayesa są bardzo zbliżone do pierwotnych szacunków,

Pytanie

Moje zmienione pytanie dotyczy tego, czy moje zmienione rozwiązanie jest nieprawidłowe. Dobra odpowiedź udowodni (lub obali), że uzyskane próbki krzywych ROC są stronnicze, lub podobnie udowodni lub obali inne cechy tego podejścia.

Sycorax mówi Przywróć Monikę
źródło
1
Myślę, że zbytnio wierzysz w krzywe ROC. Nie widziałem ani jednego przypadku, w którym prowadzą one do wglądu. Widziałem wiele przypadków, w których prowadzą one do progów, co jest naprawdę złym pomysłem.
Frank Harrell,
1
@FrankHarrell Dzięki za notatkę, dr Harrell. Ale dla moich klientów mam za zadanie opracować klasyfikatory, które będą podejmować decyzje samodzielnie w bardzo dużych zestawach danych. Doceniam to, że w kontekście medycznym jest to wysoce nieproduktywne, ale analiza użyteczności / kosztów przez ekspertów dla każdej obserwacji jest po prostu niepraktyczna, gdy musimy podejmować decyzje dotyczące tysięcy punktów danych. Musimy dokonać wyboru, który model wdrożyć, aby zrealizować to zadanie, a ROC / AUC pomóc w podjęciu tej decyzji.
Sycorax mówi Przywróć Monikę
2
Ponieważ przewidziałeś prawdopodobieństwa, i tak nie używasz klasyfikatora, przynajmniej na początku procesu. Narzędzia mogłyby podejmować lepsze decyzje, ale jeśli nie możesz uzyskać narzędzi, nadal możesz myśleć o tym inaczej niż krzywe ROC, używając krzywych wzrostu i progów ryzyka decyzji. To nie jest tak naprawdę problem medyczny.
Frank Harrell,
3
X1+X2<1X1,X2X1X2
3
Zacznij od notatek z kursu - patrz biostat.mc . vanderbilt.edu/CourseBios330 . Zobacz także Biostatistics for Biomedical Research dostępną na stronie biostat.mc. vanderbilt.edu/ClinStat , zwłaszcza rozdział dotyczący utraty informacji i początek rozdziału 10.
Frank Harrell

Odpowiedzi:

7

c

Ogólnie dość dobrze przyjęto, że można oszacować zmienność krzywych ROC za pomocą bootstrapu, np. Pepe Etzione Feng . To dobre podejście, ponieważ krzywa ROC jest oszacowaniem empirycznym, a pasek startowy jest nieparametryczny. Sparametryzowanie czegokolwiek w taki sposób wprowadza założenia i komplikacje, takie jak „czy mieszkanie przedtem jest naprawdę nieinformacyjne?” Nie jestem przekonany, że tak jest w tym przypadku.

θθ

Weźmy na przykład model z doskonałą dyskryminacją. Za pomocą tej metody przekonasz się, że przedziały ufności są kwadratem jednostkowym. Oni nie są! Nie ma zmienności w modelu z doskonałą dyskryminacją. Pokaże Ci to bootstrap.

Gdyby podejść do kwestii „analizy” ROC z perspektywy bayesowskiej, być może najbardziej przydatne byłoby zajęcie się problemem wyboru modelu, stawiając na pierwszym miejscu przestrzeń modeli wykorzystywanych do analizy. To byłby bardzo interesujący problem.

AdamO
źródło
Nie jestem pewien, czy ta odpowiedź odpowiada na treść postu. Na przykład właśnie symulowałem krzywe ROC dla modelu z doskonałą dyskryminacją. Wszystkie krzywe są skoncentrowane w dalekim północno-zachodnim rogu przestrzeni ROC, a centralny odstęp wokół symulacji AUC to liczby bardzo zbliżone do 1. Jest to sprzeczne z twierdzeniem w odpowiedzi, które twierdzi, że symulacje muszą leżeć na całym placu.
Sycorax mówi Przywróć Monikę
1
θθTPR(θ)FPR(θ)
θ
θθ
@ user777, co dokładnie ma na nim wcześniej?
AdamO,