W dyskusji: jak wygenerować krzywą roc do klasyfikacji binarnej , myślę, że zamieszanie polegało na tym, że „klasyfikator binarny” (który jest dowolnym klasyfikatorem, który oddziela 2 klasy) był dla Yang tak zwany „dyskretny klasyfikator” (który produkuje wyjścia dyskretne 0/1 jak SVM), a nie ciągłe dane wyjściowe, takie jak klasyfikatory ANN lub Bayes ... itd. Tak więc dyskusja dotyczyła sposobu, w jaki ROC jest wykreślany dla „binarnych ciągłych klasyfikatorów”, a odpowiedź jest taka, że wyniki są sortowane według ich wyników, ponieważ wyniki są ciągłe, a do utworzenia każdego punktu na krzywej ROC stosowany jest próg.
Moje pytanie dotyczy „binarnych dyskretnych klasyfikatorów”, takich jak SVM, wartości wyjściowe wynoszą 0 lub 1. Zatem ROC wytwarza tylko jeden punkt, a nie krzywą. Jestem zdezorientowany, dlaczego wciąż nazywamy to krzywą? !! Czy nadal możemy mówić o progach? Jak w szczególności zastosować progi w SVM? Jak obliczyć AUC? Czy walidacja krzyżowa odgrywa tutaj jakąkolwiek rolę?
źródło
Odpowiedzi:
Tak, są sytuacje, w których nie można uzyskać zwykłej krzywej działania odbiornika i istnieje tylko jeden punkt.
SVM można skonfigurować tak, aby generowały prawdopodobieństwa członkostwa w klasie. Byłyby to zwykle wartości, dla których wartość progowa byłaby zmieniana w celu uzyskania krzywej działania odbiornika .
Czy tego szukasz?
Kroki w ROC zwykle zdarzają się z małą liczbą przypadków testowych, a nie mają nic wspólnego z dyskretnymi zmianami współzmiennej (szczególnie, jeśli wybierasz swoje dyskretne progi, uzyskujesz te same punkty, tak że dla każdego nowego punktu zmienia się tylko jedna próbka jego zadanie).
Ciągłe zmienianie innych (hiper) parametrów modelu tworzy zestawy par specyficzności / czułości, które dają inne krzywe w układzie współrzędnych FPR; TPR.
Interpretacja krzywej zależy oczywiście od tego, która odmiana wygenerowała krzywą.
Oto typowy ROC (tj. Żądanie prawdopodobieństwa jako danych wyjściowych) dla klasy „versicolor” zestawu danych tęczówki:
Ten sam typ układu współrzędnych, ale TPR i FPR jako funkcja parametrów strojenia γ i C:
FPR; TPR (γ, C = 1, próg prawdopodobieństwa = 0,5):
FPR; TPR (γ = 1, C, próg prawdopodobieństwa = 0,5):
Te wątki mają znaczenie, ale znaczenie zdecydowanie różni się od zwykłego ROC!
Oto kod R, którego użyłem:
źródło
these plots do have a meaning
- jakie jest znaczenie tych fabuł?źródło
Krzywa ROC wykreśla swoistość w zależności od czułości, która zmienia się wraz z progiem zmiennej towarzyszącej (która może być ciągła lub dyskretna). Myślę, że mylisz zmienną towarzyszącą z odpowiedzią i być może nie w pełni rozumiesz, czym jest krzywa ROC. Jest to z pewnością krzywa, jeśli zmienna towarzysząca jest ciągła, a my patrzymy na próg, dla którego zmienna towarzysząca zmienia się w sposób ciągły. Jeśli zmienna towarzysząca jest dyskretna, nadal można wykreślić jako funkcję ciągłego progu. Następnie krzywa byłaby płaska ze skokami w górę (lub w dół) przy progach, które odpowiadają dyskretnym wartościom współzmiennej. Dotyczy to więc SVM i innych dyskretnych klasyfikatorów.
Jeśli chodzi o AUC, ponieważ nadal mamy ROC (szacowany), nadal możemy obliczyć pod nim obszar. Nie jestem pewien, co miałeś na myśli, pytając o walidację krzyżową. W kontekście problemów z klasyfikacją stosuje się weryfikację krzyżową w celu uzyskania obiektywnych lub prawie obiektywnych oszacowań poziomów błędów klasyfikatora. Może więc wejść w to, jak oceniamy punkty w ROC.
źródło