Mam problem ze zrozumieniem krzywej ROC.
Czy jest jakaś przewaga / poprawa w obszarze pod krzywą ROC, jeśli zbuduję różne modele z każdego unikalnego podzbioru zestawu treningowego i użyję go do ustalenia prawdopodobieństwa? Na przykład, jeśli ma wartości { a , a , a , a , b , b , b , b } , a ja buduję model A , stosując wartości od 1 do 4 wartości y i 8 do 9 wartości y i buduj model B z wykorzystaniem pozostałych danych pociągu. Na koniec wygeneruj prawdopodobieństwo. Wszelkie uwagi / komentarze będą mile widziane.
Oto kod r dla lepszego wyjaśnienia mojego pytania:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Więc moje pytanie brzmi, pole pod krzywą ROC z pred_combine
VS pred_full
.
Odpowiedzi:
Nie jestem pewien, czy otrzymałem pytanie, ale skoro tytuł wymaga wyjaśnienia krzywych ROC, spróbuję.
Krzywe ROC służą do sprawdzenia, jak dobrze twój klasyfikator może oddzielić pozytywne i negatywne przykłady oraz do określenia najlepszego progu dla ich oddzielenia.
Aby móc użyć krzywej ROC, twój klasyfikator musi być w rankingu - to znaczy, powinien być w stanie rankingować przykłady tak, aby te z wyższą rangą były bardziej pozytywne. Na przykład regresja logistyczna generuje prawdopodobieństwa, które są wynikiem, którego można użyć do rankingu.
Rysowanie krzywej ROC
Biorąc pod uwagę zestaw danych i klasyfikator rankingu:
Ten ładny animowany obraz gif powinien lepiej zilustrować ten proces
Obszar objęty ROC
Obszar pod krzywą ROC (zacieniowany) w naturalny sposób pokazuje odległość krzywej od linii podstawowej. Dla linii podstawowej wynosi 0,5, a dla idealnego klasyfikatora 1.
Możesz przeczytać więcej o AUC ROC w tym pytaniu: Co oznacza AUC i co to jest?
Wybór najlepszego progu
Pokrótce opiszę proces wyboru najlepszego progu, a więcej szczegółów można znaleźć w referencji.
Aby wybrać najlepszy próg, każdy punkt krzywej ROC widzisz jako osobny klasyfikator. Ten mini-klasyfikator wykorzystuje wynik uzyskany jako granica między + a - (tzn. Klasyfikuje jako + wszystkie punkty powyżej bieżącego)
W zależności od frakcji dodatniej / ujemnej w naszym zbiorze danych - równolegle do linii bazowej w przypadku 50% / 50% - budujesz linie dokładności ISO i wybierasz tę z najlepszą dokładnością.
Oto zdjęcie, które to ilustruje i dla szczegółów ponownie zapraszam do referencji
Odniesienie
źródło