Załóżmy, że mam model predykcyjny, który generuje dla każdej instancji prawdopodobieństwo dla każdej klasy. Teraz zdaję sobie sprawę, że istnieje wiele sposobów oceny takiego modelu, jeśli chcę wykorzystać te prawdopodobieństwa do klasyfikacji (precyzja, przywołanie itp.). Rozumiem również, że krzywa ROC i obszar pod nią mogą być użyte do określenia, jak dobrze model rozróżnia klasy. Nie o to pytam.
Jestem zainteresowany oceną kalibracji modelu. Wiem, że zasada punktacji, taka jak wynik Briera, może być przydatna w tym zadaniu. Zgadza się i prawdopodobnie uwzględnię coś w tym stylu, ale nie jestem pewien, jak intuicyjne będą takie wskaźniki dla osób świeckich. Szukam czegoś bardziej wizualnego. Chcę, aby osoba interpretująca wyniki mogła zobaczyć, czy model przewiduje 70% prawdopodobieństwo, że tak się stanie ~ 70% czasu itp.
Słyszałem (ale nigdy nie korzystałem) z wykresów QQ i na początku myślałem, że tego właśnie szukam. Wydaje się jednak, że tak naprawdę służy porównywaniu dwóch rozkładów prawdopodobieństwa . Nie to mam bezpośrednio. Mam, na kilka przykładów, moje przewidywane prawdopodobieństwo, a następnie to, czy zdarzenie rzeczywiście miało miejsce:
Index P(Heads) Actual Result
1 .4 Heads
2 .3 Tails
3 .7 Heads
4 .65 Tails
... ... ...
Czy więc fabuła QQ jest naprawdę tym, czego chcę, czy szukam czegoś innego? Jeśli powinienem używać wykresu QQ, jaki jest właściwy sposób na przekształcenie moich danych w rozkłady prawdopodobieństwa?
Wyobrażam sobie, że mógłbym posortować obie kolumny według przewidywanego prawdopodobieństwa, a następnie utworzyć kilka koszy. Czy to jest rodzaj rzeczy, którą powinienem robić, czy też gdzieś się zastanawiam? Znam różne techniki dyskretyzacji, ale czy istnieje specyficzny sposób dyskretyzacji na pojemniki, który jest standardem w tego typu sprawach?
źródło
col=colors
kolorem, takim jakcol="Red"
.Inną opcją jest regresja izotoniczna. Jest podobny do odpowiedzi Whubera, z tym wyjątkiem, że pojemniki są generowane dynamicznie zamiast przez dzielenie na pół, z warunkiem, że produkcja ściśle rośnie.
To podstawowe zastosowanie regresji izotonicznej polega na ponownej kalibracji prawdopodobieństw, jeśli okażą się źle skalibrowane, ale można je również wykorzystać do wizualizacji. Zasadniczo, jeśli linia regresji izotonicznej z grubsza podąża za linią Y = X, wówczas prawdopodobieństwa są odpowiednio skalibrowane.
Jest to regresja izotoniczna zastosowana do problemu pokazanego przez Whubera.
http://fa.bianp.net/blog/2013/isotonic-regression/
http://stat.wikia.com/wiki/Isotonic_regression
źródło
Możesz także spojrzeć na „weryfikację” pakietu:
http://cran.r-project.org/web/packages/verification/index.html
Winieta zawiera wykresy, które mogą być przydatne:
http://cran.r-project.org/web/packages/verification/vignettes/verification.pdf
źródło