Określ dokładność modelu, który szacuje prawdopodobieństwo zdarzenia

12

Modeluję wydarzenie z dwoma wynikami, a i b. Stworzyłem model, który ocenia prawdopodobieństwo wystąpienia albo a lub b (tj. Model obliczy, że a nastąpi z 40% szansą, a b z 60% szansą).

Mam duży zapis wyników prób z oszacowaniami z modelu. Chciałbym określić ilościowo, jak dokładny model wykorzystuje te dane - czy jest to możliwe, a jeśli tak, to w jaki sposób?

Piotr
źródło
Mogę się mylić, ale myślę, że interesuje Cię błąd szkolenia i / lub testu twojego modelu. Patrz na przykład: cs.ucla.edu/~falaki/pub/classification.pdf
Stijn
1
@Stijn Przewiduje jednak prawdopodobieństwo, zamiast bezpośrednio klasyfikować jako a lub b, więc nie sądzę, aby o te dane prosił.
Michael McGowan
6
Czy jesteś bardziej zainteresowany tym, jak dobrze model ostatecznie sprawdzi się w klasyfikacji (w takim przypadku analiza ROC i AUC wydaje się najbardziej odpowiednia ( en.wikipedia.org/wiki/Receiver_operating_characteristic )? Czy bardziej interesuje Cię zrozumienie, jak „skalibrowany” przewidywania prawdopodobieństwa są (tj. czy P (Wynik = A) = 60% naprawdę oznacza 60%, lub po prostu ten wynik = A jest bardziej prawdopodobne niż inne wyniki ...
DavidR
1
Wygląda na to, że chcesz wiedzieć o ocenie prawdopodobieństwa .
whuber
1
Elvis, artykuł w bieżącym numerze Analysis Analysis, zwrócił moją uwagę na punktację prawdopodobieństwa. Wydaje się, że opiera się na znacznej literaturze przedmiotu. (Nie mam jednak dostępu do streszczenia, więc nie mogę komentować samego artykułu.) Artykuł na okładce redaktorów czasopisma (który jest dostępny bezpłatnie ) wymienia wiele wcześniejszych artykułów na ten sam temat.
whuber

Odpowiedzi:

16

Załóżmy, że Twój model rzeczywiście przewiduje, że A ma 40% szansy, a B 60% szansy. W niektórych okolicznościach możesz chcieć przekształcić to w klasyfikację, że nastąpi B (ponieważ jest bardziej prawdopodobne niż A). Po przekształceniu w klasyfikację, każda prognoza jest albo dobra, albo zła, i istnieje wiele interesujących sposobów na zrównanie tych dobrych i złych odpowiedzi. Jednym z nich jest prosta dokładność (procent prawidłowych odpowiedzi). Inne obejmują precyzję i wycofanie lub F-środka . Jak wspomnieli inni, warto przyjrzeć się krzywej ROC . Co więcej, twój kontekst może dostarczyć specyficzną macierz kosztów, która nagradza prawdziwie pozytywne wyniki odmiennie od prawdziwych negatywów i / lub karze fałszywie pozytywne wyniki odmiennie od fałszywych negatywów.

Jednak nie sądzę, że tego naprawdę szukasz. Jeśli powiedziałeś, że B ma 60% szansy na wystąpienie, a ja powiedziałem, że ma 99% szansy na zdarzenie, mamy bardzo różne przewidywania, mimo że obaj zostaną zmapowani do B w prostym systemie klasyfikacji. Jeśli zamiast tego zdarzy się A, po prostu się mylisz, podczas gdy ja bardzo się mylę, więc mam nadzieję, że dostanę surowszą karę niż ty. Kiedy twój model faktycznie generuje prawdopodobieństwa, reguła punktacji jest miarą wydajności twoich prognoz prawdopodobieństwa. W szczególności prawdopodobnie potrzebujesz właściwej reguły oceniania, co oznacza, że ​​wynik jest zoptymalizowany pod kątem dobrze skalibrowanych wyników.

Typowym przykładem reguły punktacji jest wynik Briera : gdzie jest przewidywanym prawdopodobieństwem zdarzenie się dzieje, a wynosi 1, jeśli zdarzenie się wydarzyło, a 0, jeśli nie.

BS=1Nt=1N(ftot)2
ftot

Oczywiście rodzaj wybranej reguły punktacji może zależeć od rodzaju zdarzenia, które próbujesz przewidzieć. Powinno to jednak dać ci pomysły na dalsze badania.

Dodam zastrzeżenie, że niezależnie od tego, co robisz, oceniając swój model w ten sposób, sugeruję, abyś spojrzał na swoje dane dotyczące danych poza próbą (czyli danych, które nie zostały użyte do zbudowania modelu). Można tego dokonać poprzez walidację krzyżową . Być może prościej można zbudować model na jednym zestawie danych, a następnie ocenić go na innym (uważając, aby nie wyciągnąć wniosków z próby poza próbą do modelowania w próbie).

Michael McGowan
źródło