Miara wydajności klasyfikatora, która łączy czułość i swoistość?

Mam dane z 2 klasami, na których przeprowadzam klasyfikację przy użyciu wielu klasyfikatorów. A zestawy danych są dobrze wyważone. Oceniając skuteczność klasyfikatorów, muszę wziąć pod uwagę, jak dokładny jest klasyfikator w określaniu nie tylko prawdziwych pozytywów, ale także prawdziwych negatywów. Dlatego jeśli użyję dokładności, a jeśli klasyfikator jest stronniczy w stosunku do pozytywów i sklasyfikuje wszystko jako pozytywne, uzyskam około 50% dokładności, nawet jeśli nie udało się sklasyfikować żadnych prawdziwych negatywów. Ta właściwość jest rozszerzona na precyzję i przywołanie, ponieważ koncentrują się tylko na jednej klasie, a z kolei na wynik F1. (To rozumiem nawet z tego artykułu, na przykład „ Beyond Accuracy, F-score i ROC: rodzina dyskryminujących środków oceny wydajności ”).

Dlatego mogę użyć czułości i swoistości (TPR i TNR), aby zobaczyć, jak klasyfikator działał dla każdej klasy, gdzie staram się zmaksymalizować te wartości.

Moje pytanie brzmi : szukam miary, która łączy obie te wartości w jedną znaczącą miarę . Przyjrzałem się środkom przedstawionym w tym artykule, ale uznałem, że nie jest to banalne. W oparciu o moje zrozumienie zastanawiałem się, dlaczego nie możemy zastosować czegoś takiego jak F-score, ale zamiast używać precyzji i przypominania, użyłbym czułości i swoistości? Formuła będzie więc następująca: a moim celem będzie maksymalizacja ten środek. Uważam to za bardzo reprezentatywne. Czy istnieje już podobna formuła? I czy miałoby to sens, czy może nawet brzmi matematycznie?

moja miara wydajności = \frac{2) * wrażliwość * specyficzność}{wrażliwość + specyficzność}

$\text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}$

classification roc model-evaluation sensitivity-specificity Kalaji
źródło

Odpowiedzi:

Powiedziałbym, że może nie być żadnego konkretnego lub tylko jednego środka, który należy wziąć pod uwagę.

Ostatnim razem, kiedy przeprowadzałem klasyfikację probabilistyczną, miałem pakiet R ROCR i wyraźne wartości kosztów dla fałszywych trafień i fałszywych negatywów.

Rozważyłem wszystkie punkty odcięcia od 0 do 1 i zastosowałem wiele miar, takich jak oczekiwany koszt przy wyborze tego punktu odcięcia. Oczywiście miałem już miarę AUC dla ogólnej miary dokładności klasyfikacji. Ale dla mnie nie była to jedyna możliwość.

Wartości dla spraw FP i FN muszą wykraczać poza twój konkretny model, być może są one podane przez jakiegoś eksperta tematycznego?

Na przykład w analizie rezygnacji klientów może być droższe niepoprawne wnioskowanie, że klient nie rezygnuje, ale także, że ogólne obniżenie cen usług będzie kosztowne bez dokładnego ukierunkowania ich na odpowiednie grupy.

-Analityk

Analityk
źródło

Właściwie w moim przypadku jest to trochę podobne. Ponieważ przypadki FP i FN będą kosztowne w moim modelu. Ostatecznie skończyło się na zrobieniu czegoś podobnego do tego, co sugerowałeś „używając wielu miar”. Obliczyłem F-score dla każdej etykiety klasy i do oceny modeli używam obu tych wartości wraz z pewną funkcją kosztów, która wykorzystuje precyzję (dla obu klas) do obliczania zysku i odejmuje od niego straty poniesione z przypadków FP i FN.

Kalaji

Dokładność klasyfikacji, czułość, specyficzność i każda ich prosta kombinacja są niewłaściwymi regułami punktacji. Oznacza to, że są one zoptymalizowane przez fałszywy model. Korzystanie z nich sprawi, że wybierzesz niewłaściwe funkcje, podasz niewłaściwe wagi i podejmiesz nieoptymalne decyzje. Jednym z wielu sposobów, w których decyzje są nieoptymalne, jest fałszywe zaufanie, które uzyskuje się, gdy przewidywane prawdopodobieństwa są bliskie progu wynikającego z zastosowania tych miar. Krótko mówiąc, wszystko, co może pójść nie tak, idzie źle z tymi środkami. Wykorzystanie ich do porównania nawet dwóch dobrze dopasowanych modeli wprowadzi cię w błąd.

Frank Harrell
źródło

Zgadzam się, że każdy wygenerowany model jest „fałszywym modelem”, jak wspomniałeś. Ale wciąż potrzebuję miernika, aby ocenić jego jakość, aby ostatecznie wybrać model. Zakładając, że moje funkcje zostały już wybrane (próbuję wielu zestawów danych z różnymi zestawami funkcji), i używam 5-krotnego sprawdzania poprawności krzyżowej w celu ustalenia, czy moi klasyfikatorzy nie pasują do danych, te proste „reguły punktacji” są najbardziej szeroko stosowane w literaturze. Jakie inne środki zaproponowałbyś wtedy? Większość miar opiera się na kombinacjach tych wartości, w tym LR +/-, ROC i AUC.

Kalaji,

Po pierwsze, czy ostrożnie powtarzasz od początku wszystkie etapy eksploracji / modelowania dla każdego z 5 modeli pasujących do 5-krotnego CV? Złotym standardowym miernikiem jakości jest prawdopodobieństwo dziennika i uzyskane z niego ilości, takie jak

R^{2}

$R^2$ i dewiacja. Dla binarnego

Y

$Y$ prowadzi to do logarytmicznej reguły punktacji prawdopodobieństwa. W takim przypadku można również użyć innego właściwego wyniku, wyniku Briera (średni błąd kwadratowy w przewidywanych prawdopodobieństwach).

Frank Harrell,

W oparciu o mój odczyt ma to zastosowanie w przypadku, gdy moje modele generują prawdopodobieństwa, a nie wartości dyskretne (tj. Prawdopodobieństwo, że instancja należy do klasy 0 lub 1 zamiast wyprowadzać 0 lub 1). Z kolei miało to związek z implementacją klasyfikatorów, np. Dotyczy klasyfikatora Naive Bayes, ale nie klasyfikatora 1-NN. Zauważ, że nie implementuję klasyfikatorów, używam niektórych klasyfikatorów w Weka do generowania moich modeli. Może jestem trochę zdezorientowany. Dzięki.

Kalaji

Jeśli metoda, której używasz, nie daje prawdopodobieństw, sugeruję znalezienie innej metody.

Frank Harrell,

Jeśli istnieją dobrze zrozumiałe różnice między faktycznym kosztem precyzji a wrażliwością (nie dotyczy oryginalnego postu), dlaczego miałbyś ich unikać? Czy preferowany byłby stronniczy błąd entropii krzyżowej (np. Kara dla (1-c) * logu (1-p) jest podwojona)?

Max Candocia