Pracuję nad problemem klasyfikacji, który oblicza podobieństwo między dwoma wejściowymi obrazami rentgenowskimi. Jeśli obrazy przedstawiają tę samą osobę (etykieta „prawa”), obliczona zostanie wyższa metryka; wprowadzenie obrazów dwóch różnych osób (oznaczenie „zły”) spowoduje obniżenie wartości.
Użyłem warstwowej 10-krotnej walidacji krzyżowej, aby obliczyć prawdopodobieństwo błędnej klasyfikacji. Mój obecny rozmiar próbki wynosi około 40 prawidłowych dopasowań i 80 nieprawidłowych dopasowań, gdzie każdy punkt danych jest obliczoną miarą. Otrzymuję prawdopodobieństwo błędnej klasyfikacji 0,00, ale potrzebuję w tym zakresie analizy przedziału ufności / analizy błędów.
Zastanawiałem się nad zastosowaniem dwumianowego przedziału ufności proporcji (gdzie wykorzystałbym wyniki weryfikacji krzyżowej jako poprawne etykietowanie lub nieprawidłowe etykietowanie dla mojej liczby sukcesów). Jednak jednym z założeń analizy dwumianowej jest takie samo prawdopodobieństwo sukcesu dla każdej próby i nie jestem pewien, czy można uznać, że metoda klasyfikacji „dobra” lub „zła” w walidacji krzyżowej ma takie samo prawdopodobieństwo sukcesu.
Jedyną inną analizą, jaką mogę wymyślić, jest powtórzenie X-krotnej walidacji i obliczenie średniej / odchylenia standardowego błędu klasyfikacji, ale nie jestem pewien, czy jest to właściwe, ponieważ ponownie wykorzystam dane z mojego stosunkowo niewielka próbka kilka razy.
jakieś pomysły? Korzystam z MATLAB do wszystkich moich analiz i mam przybornik Statystyka. Byłbym wdzięczny za wszelką pomoc!
Odpowiedzi:
Wpływ niestabilności na przewidywania różnych modeli zastępczych
Cóż, zwykle ta równoważność jest założeniem, które jest również potrzebne, aby umożliwić połączenie wyników różnych modeli zastępczych.
W praktyce twoja intuicja, że to założenie może zostać naruszone, jest często prawdziwa. Ale możesz zmierzyć, czy tak jest. W tym miejscu uważam, że iteracja krzyżowej walidacji jest pomocna: stabilność prognoz dla tego samego przypadku przez różne modele zastępcze pozwala ocenić, czy modele są równoważne (prognozy stabilne), czy nie.
Oto schemat iteracji (czyli powtarzanej) krotnej walidacji krzyżowej:k
Klasy są czerwone i niebieskie. Koła po prawej symbolizują prognozy. W każdej iteracji każda próbka jest przewidywana dokładnie raz. Zwykle średnia średnia jest używana jako oszacowanie wydajności, domyślnie zakładając, że wydajność modeli zastępczych jest równa. Jeśli szukasz każdej próbki na podstawie prognoz wykonanych przez różne modele zastępcze (tj. W kolumnach), możesz zobaczyć, jak stabilne są prognozy dla tej próbki.I ⋅ k
Możesz także obliczyć wydajność dla każdej iteracji (blok 3 wierszy na rysunku). Wszelkie rozbieżności między nimi oznaczają, że założenie, że modele zastępcze są równoważne (względem siebie, a ponadto „wielki model” zbudowany na wszystkich przypadkach) nie jest spełnione. Ale to również mówi ci, ile masz niestabilności. W przypadku proporcji dwumianowej myślę, o ile prawdziwa wydajność jest taka sama (tj. Niezależnie od tego, czy zawsze te same przypadki są błędnie prognozowane lub czy ta sama liczba, ale różne przypadki są błędnie prognozowane). Nie wiem, czy można rozsądnie założyć konkretny rozkład wydajności modeli zastępczych. Ale myślę, że w każdym razie przewaga nad obecnie powszechnym zgłaszaniem błędów klasyfikacji, jeśli w ogóle zgłosisz tę niestabilność.kk modeli zastępczych zebrano już dla każdej z iteracji, wariancja niestabilności jest około razy większa niż zaobserwowana wariancja między iteracjami.k
Zwykle muszę pracować z mniej niż 120 niezależnymi przypadkami, więc na moich modelach wprowadziłem bardzo silną regularyzację. Jestem wtedy zazwyczaj w stanie wykazać, że wariancja jest niestabilność niż wielkość próby testu wariancji skończonych. (I myślę, że jest to uzasadnione dla modelowania, ponieważ ludzie są skłonni do wykrywania wzorców, a tym samym przyciągają do budowania zbyt skomplikowanych modeli, a tym samym do nadmiernego dopasowania). Zazwyczaj zgłaszam percentyle obserwowanej wariancji niestabilności w ciągu iteracji (oraz , i ) oraz dwumianowe przedziały ufności w odniesieniu do średniej obserwowanej wydajności dla skończonej wielkości próbki testowej.n k i≪
n k ja
Rysunek jest nowszą wersją rys. 5 w tym artykule: Beleites, C. i Salzer, R .: Ocena i poprawa stabilności modeli chemometrycznych w sytuacjach o małej wielkości próby, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Zauważ, że kiedy pisaliśmy ten artykuł, nie do końca zdałem sobie sprawę z różnych źródeł wariancji, które tu wyjaśniłem - pamiętaj o tym. Dlatego uważam, że argumentacjapodana efektywna ocena wielkości próby jest nieprawidłowa, mimo że wniosek, że różne typy tkanek w obrębie każdego pacjenta dostarczają tyle samo ogólnych informacji, co nowy pacjent z danym typem tkanki jest prawdopodobnie nadal aktualny (mam zupełnie inny typ dowód, który również wskazuje w ten sposób). Jednak nie jestem jeszcze całkowicie tego pewien (ani tego, jak to zrobić lepiej, a tym samym móc sprawdzić), a ten problem nie ma związku z twoim pytaniem.
Jakiej wydajności użyć w dwumianowym przedziale ufności?
Do tej pory korzystałem ze średniej obserwowanej wydajności. Można również użyć najgorszej zaobserwowanej wydajności: im bliższa jest obserwowanej wydajności do 0,5, tym większa jest wariancja, a tym samym przedział ufności. Tak więc przedziały ufności obserwowanej wydajności najbliższe 0,5 dają pewien konserwatywny „margines bezpieczeństwa”.
Zauważ, że niektóre metody obliczania dwumianowych przedziałów ufności działają również, jeśli zaobserwowana liczba sukcesów nie jest liczbą całkowitą. Używam „integracji prawdopodobieństwa Bayesa a posteriori”, jak opisano w
Ross, TD: Dokładne przedziały ufności dla proporcji dwumianowej i estymacji Poissona, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Nie wiem dla Matlaba, ale w R możesz używać
binom::binom.bayes
z obydwoma parametrami kształtu ustawionymi na 1).Te myśli dotyczą modeli predykcyjnych zbudowanych na podstawie tego zbioru danych treningowych dla nieznanych nowych przypadków. Jeśli chcesz wygenerować dane do innych zestawów danych treningowych pochodzących z tej samej populacji przypadków, musisz oszacować, ile modeli wyszkolonych na nowych próbach treningowych o wielkości różni się. (Nie mam pojęcia, jak to zrobić inaczej niż poprzez uzyskanie „fizycznych” nowych zestawów danych treningowych)n
Zobacz także: Bengio, Y. i Grandvalet, Y .: Brak bezstronnego szacownika wariancji krzyżowej weryfikacji K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Myślenie o tych rzeczach znajduje się na mojej liście badań ..., ale ponieważ pochodzę z nauki eksperymentalnej, lubię uzupełniać wnioski teoretyczne i symulacyjne danymi eksperymentalnymi - co jest tutaj trudne, ponieważ potrzebowałbym dużej zestaw niezależnych przypadków do testowania referencyjnego)
Aktualizacja: czy uzasadnione jest przyjęcie rozkładu biometrycznego?
Widzę k-fold CV podobny do następującego eksperymentu polegającego na rzucaniu monetą : zamiast rzucać jedną monetą wiele razy, monet wyprodukowanych przez tę samą maszynę rzuca się mniejszą liczbę razy. Na tym zdjęciu myślę, że @Tal wskazuje, że monety nie są takie same. Co oczywiście jest prawdą. Myślę, że to, co należy i co można zrobić, zależy od założenia równoważności dla modeli zastępczych.k
Jeśli faktycznie występuje różnica w wydajności między modelami zastępczymi (monetami), nie ma „tradycyjnego” założenia, że modele zastępcze są równoważne. W takim przypadku nie tylko rozkład nie jest dwumianowy (jak powiedziałem powyżej, nie mam pojęcia, jakiego rozkładu użyć: powinna to być suma dwumianów dla każdego modelu zastępczego / każdej monety). Należy jednak pamiętać, że oznacza to, że łączenie wyników modeli zastępczych nie jest dozwolone. Tak więc dwumianowy dla testów nie jest dobrym przybliżeniem (staram się poprawić przybliżenie, mówiąc, że mamy dodatkowe źródło zmienności: niestabilność), ani też średniej wydajności nie można użyć jako oszacowania punktowego bez dalszego uzasadnienia.n
Jeśli z drugiej strony (prawdziwe) działanie surogatu jest takie samo, to znaczy, że mam na myśli „modele są równoważne” (jednym z symptomów jest to, że prognozy są stabilne). Myślę, że w tym przypadku wyniki wszystkich modeli zastępczych można połączyć, a zastosowanie dwumianowego rozkładu dla wszystkich testów powinno być OK: Myślę, że w takim przypadku uzasadnione jest przybliżenie prawdziwych wartości modeli zastępczych, aby były równe , a zatem opisz test jako równoważny rzuceniu jedną monetą razy.p nn p n
źródło
Myślę, że twój pomysł wielokrotnego powtarzania weryfikacji krzyżowej jest słuszny.
Powtórz CV, powiedzmy 1000 razy, za każdym razem dzieląc dane na 10 części (dla 10-krotnego CV) w inny sposób ( nie tasuj etykiet). Otrzymasz 1000 oszacowań dokładności klasyfikacji. Oczywiście ponownie wykorzystasz te same dane, więc te 1000 oszacowań nie będzie niezależnych. Jest to jednak podobne do procedury ładowania początkowego: można przyjąć odchylenie standardowe w stosunku do tych dokładności jako błąd standardowy średniej z ogólnego estymatora dokładności. Lub przedział 95% percentyla jako przedział ufności 95%.
Alternatywnie możesz połączyć pętlę weryfikacji krzyżowej z pętlą ładowania początkowego i po prostu wybrać losowy (być może losowo stratyfikowany) 10% swoich danych jako zestaw testowy i zrobić to 1000 razy. Dotyczy to również tego samego rozumowania, co powyżej. Spowoduje to jednak większą wariancję w stosunku do powtórzeń, więc myślę, że powyższa procedura jest lepsza.
Jeśli wskaźnik błędnej klasyfikacji wynosi 0,00, klasyfikator popełnia zero błędów, a jeśli zdarzy się to przy każdej iteracji ładowania początkowego, otrzymasz zerowy przedział ufności. Ale to po prostu oznaczałoby, że twój klasyfikator jest prawie idealny, więc dla ciebie dobry.
źródło
Błąd klasyfikacji jest nieciągły i stanowi niewłaściwą zasadę punktacji. Ma niską precyzję, a optymalizacja wybiera niewłaściwe funkcje i nadaje im niewłaściwe wagi.
źródło