Test ładowania początkowego a testowanie permutacji

Istnieje kilka popularnych technik ponownego próbkowania, które są często stosowane w praktyce, takich jak ładowanie, test permutacji, scyzoryk itp. Istnieje wiele artykułów i książek na temat tych technik, na przykład Philip I Good (2010) Permutation, Parametric i Bootstrap Tests hipotez

Moje pytanie brzmi, która technika ponownego próbkowania zyskała większą popularność i jest łatwiejsza do wdrożenia? Testy ładowania lub testy permutacji?

hypothesis-testing nonparametric bootstrap permutation-test Tu.2
źródło

Popularność nie jest dobrą miarą jakości. Sądząc po liczbie cytowań (klientów), McDonalds jest znacznie bardziej popularną (lepszą?) Restauracją niż jakikolwiek trzygwiazdkowy zakład Michelin. Czy zabierzesz zatem swojego następnego mówcę do McDonalds?

StasK

Odpowiedzi:

Oba są popularne i przydatne, ale przede wszystkim do różnych zastosowań. Test permutacji jest najlepszy do testowania hipotez, a ładowanie jest najlepsze do szacowania przedziałów ufności.

Testy permutacyjne testują specyficzną zerową hipotezę wymienności, tj. Że tylko losowe próbkowanie / randomizacja wyjaśnia zaobserwowaną różnicę. Jest to częsty przypadek takich rzeczy jak testy t i ANOVA. Można go również rozszerzyć na takie rzeczy, jak szeregi czasowe (hipoteza zerowa, że nie ma szeregowej korelacji) lub regresja (hipoteza zerowa braku relacji). Testy permutacji można wykorzystać do stworzenia przedziałów ufności, ale wymaga to wielu innych założeń, które mogą, ale nie muszą być rozsądne (dlatego preferowane są inne metody). Test Manna-Whitneya / Wilcoxona jest tak naprawdę specjalnym przypadkiem testu permutacji, więc są znacznie bardziej popularne niż niektórzy zdają sobie sprawę.

Bootstrap szacuje zmienność procesu próbkowania i działa dobrze do szacowania przedziałów ufności. W ten sposób możesz wykonać test hipotezy, ale okazuje się on mniej skuteczny niż test permutacji dla przypadków, które utrzymują założenia testu permutacji.

Greg Snow
źródło

Dziękuję za odpowiedź. Dlaczego przedział ufności ładowania początkowego jest mniej skuteczny niż test permutacji? Jak bardzo Czy można scharakteryzować sytuacje, w których jest znacznie słabszy? Zaletą wydaje się być możliwość pokazania przedziału ufności, więc w tym sensie bootstrap wydaje się bardziej wartościowy.

dfrankow

@dfrankow, 2 metody wykorzystują różne założenia. W przypadku dużych próbek i różnic oba będą dobrze, ale przy mniejszych próbkach / różnicach test permutacji z większym prawdopodobieństwem wykryje różnice i będzie odpowiedni. Zobacz tę odpowiedź: stats.stackexchange.com/questions/112147/..., aby zapoznać się z przykładami, w których bootstrap nie ma nawet prawidłowej wielkości (zbyt często odrzuca się, gdy wartość null jest prawdziwa).

Greg Snow

Czy test permutacji nie jest odmianą ładowania początkowego?

Vicki B

@VickiB, testy ładowania początkowego i testy permutacji są często wymieniane razem, ale próbki boostrapowania z próbkami zastępowania i permutacji bez zamiany, co robi różnicę w tym, co mogą zrobić i jak potężne są.

Greg Snow

Jeśli używasz R, wszystkie są łatwe do wdrożenia. Patrz na przykład http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html

Powiedziałbym, że istnieje trzecia ważna technika: walidacja krzyżowa. Służy to do testowania mocy predykcyjnej modeli.

Patrick Burns
źródło

Moje pytanie brzmi, która technika ponownego próbkowania zyskała większą popularność
Testy ładowania początkowego lub testy permutacji?

Bootstrapping polega głównie na generowaniu dużych standardowych błędów lub przedziałów ufności; testy permutacyjne, jak sugeruje nazwa, dotyczą głównie testowania. (Każdy może być jednak przystosowany do użycia w innym zadaniu.)
Jak ocenilibyśmy popularność? Jeśli spojrzymy na takie dziedziny, jak psychologia i edukacja, możemy znaleźć wiele zastosowań testów opartych na rangach, takich jak Wilcoxon-Mann-Whitney, podpisany test rang, testy korelacji rang i tak dalej. Są to wszystkie testy permutacyjne (z drugiej strony istnieje wiele przypadków, w których zamiast tego można zastosować testy permutacyjne oryginalnych danych, ale zwykle nie są). W niektórych innych obszarach zastosowania rzadko stosowane byłyby testy permutacyjne, ale różna popularność w różnych obszarach zastosowania czasami mówi więcej o lokalnej kulturze dowolnego obszaru niż użyteczność.

łatwiejsze do wdrożenia?

W wielu przypadkach - szczególnie tych prostszych - są prawie tak samo łatwe - jest to zasadniczo różnica między próbkowaniem z zamianą a próbkowaniem bez zamiany.

W niektórych bardziej skomplikowanych przypadkach ładowanie jest łatwiejsze, ponieważ (patrząc na to z testowego punktu widzenia) działa raczej w ramach alternatywy niż zerowej (przynajmniej naiwne będą implementacje - robienie tego, aby działało dobrze może być znacznie bardziej skomplikowane).

Dokładne testy permutacyjne mogą być trudne w bardziej złożonych przypadkach, ponieważ odpowiednia wymienna ilość może być nieobserwowalna - często prawie wymienną ilość można zastąpić ceną dokładności (i być naprawdę bez dystrybucji).

Bootstrapping zasadniczo rezygnuje z odpowiadającego mu kryterium dokładności (dokładne pokrycie przedziałów) od samego początku i zamiast tego koncentruje się na próbach uzyskania dość dobrego pokrycia w dużych próbkach (czasami z mniejszym sukcesem, niż można to zrozumieć; jeśli nie sprawdziłeś, nie zakładaj, że twój bootstrap zapewnia zasięg, którego się spodziewasz).

Testy permutacyjne mogą działać na małych próbkach (chociaż ograniczony wybór poziomów istotności może czasami stanowić problem w przypadku bardzo małych próbek), podczas gdy bootstrap jest techniką dużej próbki (jeśli używasz go z małymi próbkami, w wielu przypadkach wyniki mogą nie być być bardzo przydatnym).

Rzadko postrzegam ich jako konkurentów mających ten sam problem i korzystałem z nich przy (różnych) prawdziwych problemach - często istnieje naturalny wybór, na który należy spojrzeć.

Oba mają zalety, ale nie w panacaea. Jeśli chcesz zmniejszyć wysiłek uczenia się, koncentrując się tylko na jednym z nich, prawdopodobnie będziesz rozczarowany - oba są niezbędnymi częściami zestawu narzędzi do ponownego próbkowania.

Glen_b - Przywróć Monikę
źródło

Czy możesz wyjaśnić, co oznacza „ odpowiednia wymienna ilość może być nieobserwowalna ”? (+1 oczywiście)

usεr11852 mówi Przywróć Monic

Rozważ próbę przeprowadzenia testu permutacji w eksperymencie z dwoma czynnikami i zmienną towarzyszącą (lub po prostu rozważ regresję z kilkoma predyktorami). Obserwacje są niezależne i nie mają żadnych efektów, dlatego można je wymieniać, dlatego możesz przetestować tę hipotezę, ale nie masz sposobu na skonstruowanie testu permutacji tylko czynników (ponieważ spodziewasz się, że zmienna towarzysząca ma wpływ i sprawdzenie, czy wartość null nie jest interesująca); podobnie nie można skonstruować testu permutacji tylko jednego z dwóch czynników. ... ctd

Przywróć Monikę

ctd ... Istnieje oczywista wymienna ilość, jeśli znasz współczynniki populacji, których nie testujesz (a błędy zawsze byłyby wymienne), ale nie możesz zaobserwować tych rzeczy. Jeśli podmienisz szacunki współczynników lub błędów (tj. Reszt), ilości są dłuższe. Jednak w niektórych szczególnych warunkach byłyby one w przybliżeniu wymienne (niektórzy opowiadają się za zrobieniem dokładnie tego) ... a jeśli to zrobisz, otrzymasz coś podobnego do bootstrapu, ale z próbkowaniem bez zamiany zamiast próbkowania z zamianą.

Glen_b

Dziękuję Ci; Zastanowię się nad tym ostrożnie. Podejrzewam, że jest coś głębszego do nauczenia się tutaj. :)

usεr11852 mówi Przywróć Monic

@NULL z jakiegoś powodu spóźniłem się z twoją prośbą o referencję. Na początek warto wspomnieć o niektórych odnośnikach: davegiles.blogspot.com/2019/04/…

Glen_b