Załóżmy, że mam algorytm, który dzieli rzeczy na dwie kategorie. Mogę zmierzyć dokładność algorytmu na powiedzmy 1000 rzeczy testowych - załóżmy, że 80% rzeczy jest poprawnie sklasyfikowanych.
Załóżmy, że zmodyfikowałem algorytm w taki sposób, aby 81% rzeczy zostało poprawnie sklasyfikowanych.
Czy statystyki mogą mi powiedzieć coś o tym, czy moje ulepszenie algorytmu jest statystycznie istotne? Czy koncepcja istotności statystycznej jest odpowiednia w tej sytuacji? Proszę skierować mnie w stronę niektórych zasobów, które mogą być istotne.
Wielkie dzięki.
Jak powiedział Erik, tak, możesz to sprawdzić pod kątem istotności statystycznej. Zastanów się jednak przez chwilę, co chcesz sprawdzić. Myślę, że bardziej interesujące może być pytanie, jak prawdopodobne jest, że rzekomo „ulepszony” algorytm jest lepszy (lub znacząco lepszy) niż oryginał, biorąc pod uwagę dane o zaobserwowanej 1% różnicy. Zadawanie pytań w zakresie „istotności statystycznej” prowadzi zwykle do pytania przeciwnego: biorąc pod uwagę, że oba algorytmy są takie same, czy istnieje mniej niż 5% szans na zaobserwowanie poprawy przynajmniej o tyle?
Dla mnie to ostatnie pytanie jest odwrócone, ale w jakiś sposób stało się standardem. Możesz sprawdzić Wikipedię na temat kontrowersji w testowaniu hipotez statystycznych . Następnie możesz być zainteresowany wnioskowaniem bayesowskim . Jeśli naprawdę chcesz dostać się do analizy danych bayesowskich, możesz sprawdzić „Analiza danych bayesowskich” Gelmana i innych lub sprawdzić to pytanie .
źródło
Zastosowanie odpowiedzi Erika do odpowiedzi Michaela :
Możesz robić to samo myślenie, do którego odnosi się Erik przy wyborze miary wydajności.
Uważam, że pomocne jest odniesienie się do różnych takich środków przez pytania, na które odpowiadają (tutaj w języku diagnostyki medycznej, który znam najbardziej - ale może po prostu możesz zastąpić pacjenta tekstem, a chorobę spamem ;-)):
Wrażliwość: biorąc pod uwagę, że pacjent naprawdę cierpi na tę chorobę, jakie jest prawdopodobieństwo, że klasyfikator to zauważy?
Specyfika: biorąc pod uwagę fakt, że pacjent naprawdę nie cierpi na tę chorobę, jakie jest prawdopodobieństwo, że klasyfikator to zauważy?
Pozytywna wartość predykcyjna: biorąc pod uwagę, że klasyfikator twierdzi, że pacjent jest chory, jakie jest prawdopodobieństwo, że pacjent rzeczywiście cierpi na tę chorobę?
Negatywna wartość predykcyjna: biorąc pod uwagę, że klasyfikator twierdzi, że pacjent nie jest chory, jakie jest prawdopodobieństwo, że pacjent naprawdę nie choruje?
Jak widać, wartości predykcyjne są tym, czym tak naprawdę interesują lekarze i pacjenci. Jednak prawie każdy charakteryzuje jego klasyfikator czułością i swoistością. Powodem jest to, że wartości predykcyjne muszą brać pod uwagę występowanie choroby i mogą się znacznie różnić (rzędy wielkości!) Dla różnych rodzajów pacjentów.
Więcej na temat pytania:
Założę się, że masz rację, martwiąc się.
Biorąc przykład z obu scenariuszy Erika:
Oto niezależne próbki testowe:
(zauważ, że ten test był dwustronny, zakładając, że dwa klasyfikatory zostałyby opublikowane, nawet gdyby wyniki były odwrotne ...)
Oto najlepsza możliwa sytuacja: test sparowany, a nowy klasyfikator jest odpowiedni dla wszystkich próbek, stary też ma rację, plus 10 dodatkowych:
(wartość p pozostaje poniżej magicznego 0,05, o ile nie więcej niż 10 próbek na 1000 zostało inaczej przewidzianych przez dwa klasyfikatory).
Nawet jeśli wartości p są prawidłową odpowiedzią na złe pytanie, istnieją oznaki, że jest to trochę ciasne miejsce.
Jednak biorąc pod uwagę zwykłą praktykę naukową, tj. Przetestowano nieznaną (niepublikowaną) liczbę nowych funkcji, a opublikowano tylko tę, która działała nieco lepiej, miejsce staje się jeszcze ściślejsze. A następnie 80% klasyfikator może być następcą około 79% klasyfikatora ...
Jeśli lubisz czytać po niemiecku, znajdziesz naprawdę fajne książki Beck-Bornhold i Dubben. Jeśli dobrze pamiętam, Mit an Wahrscheinlichkeit grenzender Sicherheit bardzo miło omawia te problemy. (Nie wiem, czy istnieje wydanie angielskie, dość dosłowne tłumaczenie tytułu brzmi „Z pewnością graniczy z prawdopodobieństwem”)
źródło
Bardzo odradzałbym stosowanie jakichkolwiek nieciągłych niewłaściwych reguł punktacji (ocena dokładności, taka jak czułość, specyficzność, odsetek sklasyfikowany jako poprawny, który po zoptymalizowaniu wyników w fałszywym modelu) i zamiast tego stosowałbym testy współczynnika wiarygodności lub częściowe testy F dla wartości dodanej nowego zmienne.
Jednym z kilku sposobów postrzegania problemów z prawidłową klasyfikacją proporcji jest to, że jeśli ogólna proporcja w jednej kategorii wynosi 0,9, poprawi się 0,9 czasu, ignorując dane i klasyfikując każdą obserwację jako należącą do tej kategorii.
źródło