Pytanie: Bootstrapping jest lepszy od jackknifing; Zastanawiam się jednak, czy istnieją przypadki, w których podnoszenie jest jedyną lub przynajmniej realną opcją charakteryzowania niepewności na podstawie oszacowań parametrów. Ponadto w sytuacjach praktycznych, w jaki sposób stronniczy / niedokładny jest walenie w nogę w stosunku do ładowania początkowego, i czy wyniki noża mogą zapewnić wstępny wgląd przed opracowaniem bardziej skomplikowanego ładowania początkowego?
Trochę kontekstu: znajomy używa algorytmu uczenia maszynowego czarnej skrzynki ( MaxEnt ) do klasyfikowania danych geograficznych, które są „tylko obecność” lub „tylko pozytywy”. Ogólnej oceny modelu zwykle dokonuje się przy użyciu krzyżowej weryfikacji i krzywych ROC. Jednak korzysta z danych wyjściowych modelu, aby uzyskać pojedynczy numeryczny opis danych wyjściowych modelu i chciałaby mieć przedział ufności wokół tej liczby; Jackknifing wydaje się być rozsądnym sposobem na określenie niepewności wokół tej wartości. Ładowanie początkowe nie wydaje się istotne, ponieważ każdy punkt danych jest unikalną lokalizacją na mapie, której nie można ponownie próbkować w przypadku zamiany. Sam program do modelowania może ostatecznie zapewnić to, czego potrzebuje; jednak ogólnie interesuje mnie, czy / kiedy jackknifing może być przydatny.
Odpowiedzi:
Jeśli podejmiesz jackknifing nie tylko w celu uwzględnienia pomijania, ale wszelkiego rodzaju próbkowania bez wymiany, takich jak procedury fold, uważam to za realną opcję i używam jej regularnie, np. W Beleites i in. : Spektroskopowa ocena ramanowska tkanek gwiaździaka: przy użyciu miękkich informacji referencyjnych. Anal Bioanal Chem, 2011, 400, 2801-2816k
patrz także: Przedział ufności dla krzyżowo potwierdzonej dokładności klasyfikacji
Unikam LOO z kilku powodów i zamiast tego używam iterowanego / powtarzanego schematu fold. W mojej dziedzinie (chemia / spektroskopia / chemometria) walidacja krzyżowa jest o wiele bardziej powszechna niż walidacja poza bootstrap. W przypadku naszych danych / typowych aplikacji stwierdziliśmy, że razy iterowałem krotną weryfikację krzyżową i iteracje szacunków wydajności po rozruchu mają bardzo podobny błąd całkowity [Beleites i in. : Zmniejszenie wariancji w szacowaniu błędu klasyfikacji przy użyciu rzadkich zestawów danych. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .k i k i⋅k
Szczególną zaletą, którą widzę, patrząc na iterowane schematy weryfikacji krzyżowej nad ładowaniem, jest to, że mogę bardzo łatwo wyliczyć miary stabilności / niepewności modelu, które można intuicyjnie wyjaśnić, i oddzielił dwie różne przyczyny niepewności wariancji w pomiarze wydajności, które są bardziej powiązane pomiary od początku ładowania.x x lub „Jak odporny jest mój model na zaburzanie danych treningowych poprzez wymianę przypadków?”x Ma to również zastosowanie do ładowania początkowego, ale mniej bezpośrednio.
Jedna linia rozumowania, która prowadzi mnie do krzyżowej walidacji / jackknifing, dotyczy niezawodności modelu: krzyżowa walidacja odpowiada raczej bezpośrednio pytaniom typu „Co stanie się z moim modelem, jeśli wymienię przypadków na nowych przypadków?”
Zauważ, że ja nie staram się czerpać przedziałów ufności, ponieważ moje dane są z natury skupione ( Widma pacjentów), więc wolę raporciens np≪ns
(konserwatywny) dwumianowy przedział ufności wykorzystujący średnią obserwowaną wydajność, a jako wielkość próby inp
wariancja Obserwuję między iteracjach krzyża walidacji. Po złożeniu każdy przypadek jest testowany dokładnie raz, jednak za pomocą różnych modeli zastępczych. W związku z tym wszelkie różnice obserwowane między biegami muszą być spowodowane niestabilnością modelu.i k i
Zazwyczaj, tj. Jeśli model jest dobrze skonfigurowany, 2. jest potrzebne tylko, aby pokazać, że jest on znacznie mniejszy niż wariancja w 1., a zatem model jest w miarę stabilny. Jeśli 2. okaże się nie bez znaczenia, nadszedł czas, aby rozważyć modele zagregowane: agregacja modelu pomaga tylko w przypadku wariancji spowodowanej niestabilnością modelu, nie może zmniejszyć niepewności wariancji w pomiarze wydajności wynikającej ze skończonej liczby przypadków testowych .
Należy zauważyć, że w celu skonstruowania przedziałów ufności wydajności dla takich danych przynajmniej wziąłbym pod uwagę, że wariancja zaobserwowana między przebiegami walidacji krzyżowej jest średnią z modeli tej niestabilności, tj. Powiedziałbym, że wariancja niestabilności modelu czy zaobserwował wariancję między przebiegami weryfikacji krzyżowej; plus wariancja ze względu na skończoną liczbę przypadków - w przypadku miar wydajności (trafienia / błędu) jest to dwumianowy. W przypadku miar ciągłych staram się wyprowadzić wariancję z wariancji przebiegu walidacji krzyżowej, oraz oszacowania wariancji typu niestabilności dla modeli pochodzących zi k k⋅ k k
Zaletą oceny krzyżowej jest to, że masz wyraźne rozgraniczenie między niepewności spowodowanej modelu niestabilności i niepewności spowodowanej przez skończoną liczbę przypadków testowych. Odpowiednią wadą jest oczywiście to, że jeśli zapomnisz wziąć pod uwagę skończoną liczbę rzeczywistych przypadków, poważnie nie docenisz prawdziwej niepewności. Stałoby się tak również w przypadku ładowania początkowego (choć w mniejszym stopniu).
Dotychczasowe rozumowanie koncentruje się na pomiarze wydajności modelu uzyskanego dla danego zestawu danych. Jeśli wziąć pod uwagę to zestaw danych dla danego zastosowania i danego próbki wielkości, istnieje trzeci wkład wariancji, że zasadniczo nie może być mierzona przez resampling walidacji, patrz np Bengio & Grandvalet: Nie nieobciążonym estymatorem wariancji K-Fold Krzyż -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). , mamy również liczby pokazujące te trzy wkłady w Beleites i in. : Planowanie wielkości próby dla modeli klasyfikacyjnych., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Myślę, że to, co się tutaj dzieje, wynika z założenia, że ponowne próbkowanie jest podobne do losowania kompletnej nowej próbki.
Jest to ważne, jeśli algorytmy budowania modelu / strategie / heurystyka mają być porównywane, a nie budowane dla modelu i sprawdzania poprawności tego modelu.
źródło