Istnieje kilka popularnych technik ponownego próbkowania, które są często stosowane w praktyce, takich jak ładowanie, test permutacji, scyzoryk itp. Istnieje wiele artykułów i książek na temat tych technik, na przykład Philip I Good (2010) Permutation, Parametric i Bootstrap Tests hipotez
Moje pytanie brzmi, która technika ponownego próbkowania zyskała większą popularność i jest łatwiejsza do wdrożenia? Testy ładowania lub testy permutacji?
Odpowiedzi:
Oba są popularne i przydatne, ale przede wszystkim do różnych zastosowań. Test permutacji jest najlepszy do testowania hipotez, a ładowanie jest najlepsze do szacowania przedziałów ufności.
Testy permutacyjne testują specyficzną zerową hipotezę wymienności, tj. Że tylko losowe próbkowanie / randomizacja wyjaśnia zaobserwowaną różnicę. Jest to częsty przypadek takich rzeczy jak testy t i ANOVA. Można go również rozszerzyć na takie rzeczy, jak szeregi czasowe (hipoteza zerowa, że nie ma szeregowej korelacji) lub regresja (hipoteza zerowa braku relacji). Testy permutacji można wykorzystać do stworzenia przedziałów ufności, ale wymaga to wielu innych założeń, które mogą, ale nie muszą być rozsądne (dlatego preferowane są inne metody). Test Manna-Whitneya / Wilcoxona jest tak naprawdę specjalnym przypadkiem testu permutacji, więc są znacznie bardziej popularne niż niektórzy zdają sobie sprawę.
Bootstrap szacuje zmienność procesu próbkowania i działa dobrze do szacowania przedziałów ufności. W ten sposób możesz wykonać test hipotezy, ale okazuje się on mniej skuteczny niż test permutacji dla przypadków, które utrzymują założenia testu permutacji.
źródło
Jeśli używasz R, wszystkie są łatwe do wdrożenia. Patrz na przykład http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
Powiedziałbym, że istnieje trzecia ważna technika: walidacja krzyżowa. Służy to do testowania mocy predykcyjnej modeli.
źródło
Bootstrapping polega głównie na generowaniu dużych standardowych błędów lub przedziałów ufności; testy permutacyjne, jak sugeruje nazwa, dotyczą głównie testowania. (Każdy może być jednak przystosowany do użycia w innym zadaniu.)
Jak ocenilibyśmy popularność? Jeśli spojrzymy na takie dziedziny, jak psychologia i edukacja, możemy znaleźć wiele zastosowań testów opartych na rangach, takich jak Wilcoxon-Mann-Whitney, podpisany test rang, testy korelacji rang i tak dalej. Są to wszystkie testy permutacyjne (z drugiej strony istnieje wiele przypadków, w których zamiast tego można zastosować testy permutacyjne oryginalnych danych, ale zwykle nie są). W niektórych innych obszarach zastosowania rzadko stosowane byłyby testy permutacyjne, ale różna popularność w różnych obszarach zastosowania czasami mówi więcej o lokalnej kulturze dowolnego obszaru niż użyteczność.
W wielu przypadkach - szczególnie tych prostszych - są prawie tak samo łatwe - jest to zasadniczo różnica między próbkowaniem z zamianą a próbkowaniem bez zamiany.
W niektórych bardziej skomplikowanych przypadkach ładowanie jest łatwiejsze, ponieważ (patrząc na to z testowego punktu widzenia) działa raczej w ramach alternatywy niż zerowej (przynajmniej naiwne będą implementacje - robienie tego, aby działało dobrze może być znacznie bardziej skomplikowane).
Dokładne testy permutacyjne mogą być trudne w bardziej złożonych przypadkach, ponieważ odpowiednia wymienna ilość może być nieobserwowalna - często prawie wymienną ilość można zastąpić ceną dokładności (i być naprawdę bez dystrybucji).
Bootstrapping zasadniczo rezygnuje z odpowiadającego mu kryterium dokładności (dokładne pokrycie przedziałów) od samego początku i zamiast tego koncentruje się na próbach uzyskania dość dobrego pokrycia w dużych próbkach (czasami z mniejszym sukcesem, niż można to zrozumieć; jeśli nie sprawdziłeś, nie zakładaj, że twój bootstrap zapewnia zasięg, którego się spodziewasz).
Testy permutacyjne mogą działać na małych próbkach (chociaż ograniczony wybór poziomów istotności może czasami stanowić problem w przypadku bardzo małych próbek), podczas gdy bootstrap jest techniką dużej próbki (jeśli używasz go z małymi próbkami, w wielu przypadkach wyniki mogą nie być być bardzo przydatnym).
Rzadko postrzegam ich jako konkurentów mających ten sam problem i korzystałem z nich przy (różnych) prawdziwych problemach - często istnieje naturalny wybór, na który należy spojrzeć.
Oba mają zalety, ale nie w panacaea. Jeśli chcesz zmniejszyć wysiłek uczenia się, koncentrując się tylko na jednym z nich, prawdopodobnie będziesz rozczarowany - oba są niezbędnymi częściami zestawu narzędzi do ponownego próbkowania.
źródło