Czy mała próbka może spowodować błąd typu 1?

21

Nauczyłem się, że mała wielkość próbki może prowadzić do niewystarczającej mocy i błędu typu 2. Mam jednak wrażenie, że małe próbki mogą być generalnie niewiarygodne i mogą przez przypadek doprowadzić do dowolnego wyniku. Czy to prawda?

parzysty
źródło
Mam niechęć do niepotrzebnego zapisu matematycznego, więc zredagowałem tytuł, czy mógłbyś sprawdzić, czy nie zmieniłem znaczenia, zmieniając go?
mpiktas
1
Pamiętaj też o testowaniu hipotez (testy Neymana-Pearsona), a nie o testowaniu istotności (testy Fishera). Podejścia te są często mieszane, nawet jeśli nie ma pojęcia błędu w drugim, a właściwe zastosowania powinny być różne, ponieważ prowadzą do różnego rodzaju wniosków.
Seb
Jeśli używasz testu asymptotycznego, to tak, jest to możliwe. W przeciwnym razie nie - zdefiniowano test kontrolujący poziom błędu typu 1 (tj. ). α
Makro
Ale czy nie jest prawdą, że jeśli przerzucasz monety dwa razy, bardziej prawdopodobne jest, że uzyskasz wypaczony wynik (2 te same strony (100%)), niż gdy przerzucasz 100 razy, co najprawdopodobniej spowoduje około 1 / 2, 1/2. Czy to nie oznacza, że ​​im mniejszy rozmiar, tym większe prawdopodobieństwo, że popełnisz błąd typu I.

Odpowiedzi:

27

Zasadniczo mała wielkość próby nie zwiększy poziomu błędu typu I z tego prostego powodu, że test jest zorganizowany w celu kontroli wskaźnika typu I. (Istnieją drobne wyjątki techniczne związane z dyskretnymi wynikami, które mogą spowodować, że nominalna częstość Typu I nie zostanie osiągnięta dokładnie, szczególnie przy małych próbkach).

Jest tu ważna zasada : jeśli twój test ma akceptowalny rozmiar (= nominalna częstość Typu I) i dopuszczalną moc dla efektu, którego szukasz, to nawet jeśli próbka jest mała, jest w porządku.

Niebezpieczeństwo polega na tym, że jeśli w przeciwnym razie niewiele wiemy o sytuacji - być może są to wszystkie dane, które mamy - możemy być zaniepokojeni błędami „typu III”, to znaczy błędną specyfikacją modelu. Mogą być trudne do sprawdzenia przy małych zestawach próbek.

Jak praktyczny przykład interakcji pomysłów podzielę się historią. Dawno temu zostałem poproszony o zalecenie wielkości próbki w celu potwierdzenia oczyszczenia środowiska. Było to w fazie czyszczenia wstępnego, zanim mieliśmy jakiekolwiek dane. Mój plan wezwał do przeanalizowania około 1000 próbek, które zostaną uzyskane podczas oczyszczania (w celu ustalenia, że ​​w każdym miejscu usunięto wystarczającą ilość gleby), aby ocenić średnią po wariancie oczyszczania i wariancję stężenia zanieczyszczenia. Następnie (aby znacznie uprościć) powiedziałem, że użyjemy formuły podręcznika - opartej na określonej mocy i rozmiarze testu - w celu ustalenia liczby niezależnych próbek potwierdzających, które zostaną użyte do udowodnienia, że ​​czyszczenie się powiodło.

To, co sprawiło, że zapadło w pamięć, polegało na tym, że po zakończeniu czyszczenia formuła powiedziała, że ​​używa tylko 3 próbek. Nagle moja rekomendacja nie wyglądała zbyt wiarygodnie!

Potrzebne są tylko 3 próbki, ponieważ czyszczenie było agresywne i działało dobrze. Zmniejszyło to średnie stężenie zanieczyszczeń do około 100, dając lub przyjmując 100 ppm, konsekwentnie poniżej celu 500 ppm.

W końcu to podejście zadziałało, ponieważ uzyskaliśmy 1000 wcześniejszych próbek (choć o niższej jakości analitycznej: mieli większy błąd pomiaru), aby ustalić, że przyjęte założenia statystyczne były w rzeczywistości dobre dla tej witryny. W ten sposób obsłużono potencjał błędu typu III.

Jeszcze jeden zwrot do rozważenia: wiedząc, że organ regulacyjny nigdy nie zatwierdzi użycia tylko 3 próbek, zaleciłem uzyskanie 5 pomiarów. Miały być one wykonane z 25 losowych próbek z całego miejsca, ułożonych w grupach po 5 osób. Statystycznie w końcowym teście hipotezy byłoby tylko 5 liczb, ale osiągnęliśmy większą moc w wykrywaniu izolowanego „gorącego punktu” poprzez pobranie 25 fizycznych próbki. Podkreśla to ważną zależność między liczbą liczb używanych w teście a sposobem ich uzyskania. W podejmowaniu decyzji statystycznych chodzi nie tylko o algorytmy z liczbami!

Ku mojej wiecznej uldze pięć złożonych wartości potwierdziło, że cel oczyszczania został osiągnięty.

Whuber
źródło
1
(+1) świetna historia o agresywnym czyszczeniu i błędzie typu III , byłoby miło, gdyby miało to również znaczenie dla ekonomicznych szeregów czasowych. W przypadku modeli deterministycznych lub modeli o niskim współczynniku szumów mała próbka IMHO nie będzie największym problemem (w porównaniu z ogromnym zestawem bardzo głośnych, prawdopodobnie niezależnych danych dużej próbki, nawet główne składniki są trudne z tymi).
Dmitrij Celov,
1
+1 dla tych, którzy są zainteresowani dalszą Zrozumienie „wyjątków technicznych związanych z odrębnych rezultatów” wymienionych w pierwszym akapicie, omówię je tutaj: Porównywanie i przeciwstawianie wartości p, poziomy istotności i błąd typu I .
gung - Przywróć Monikę
1
+1, świetny przykład, dlaczego nie możesz wziąć dzikiego dźgnięcia w przydatny rozmiar próbki bez kluczowych informacji.
Freya Harrison
0

Inną konsekwencją małej próbki jest wzrost błędu typu 2.

Nunnally wykazał w artykule „Miejsce statystyki w psychologii”, 1960, że małe próbki na ogół nie odrzucają hipotezy punkt zero. Hipoteza ta jest hipotezą mającą niektóre parametry równe zero i wiadomo, że są fałszywe w rozważanym doświadczeniu.

Przeciwnie, zbyt duże próbki zwiększają błąd typu 1, ponieważ wartość p zależy od wielkości próbki, ale poziom istotności alfa jest stały. Test na takiej próbce zawsze odrzuca hipotezę zerową. Przeczytaj „Nieistotność statystycznego testowania istotności” autorstwa Johnsona i Douglasa (1999), aby uzyskać przegląd tego problemu.

To nie jest bezpośrednia odpowiedź na pytanie, ale rozważania te się uzupełniają.

Seb
źródło
+1 za wywołanie problemu dużych próbek i błędu typu I
Josh Hemann
6
-1, komentarz, że „zbyt duże próbki zwiększają błąd typu 1” jest niepoprawny. Może być mylące znaczenie statystyczne i praktyczne , ponieważ może istnieć sytuacja, w której prawdziwy efekt nie jest dokładnie równy 0, ale jest tak mały, że jest nieistotny, a dla celów praktycznych uznalibyśmy wartość zerową za „prawdziwą” . W tym przypadku wartość zerowa byłaby odrzucana częściej niż (np.) 5% czasu, i częściej w / rosnąca N. Jednak ściśle mówiąc, hipoteza zerowa, że ​​prawdziwy efekt wynosi dokładnie 0, jest, z założenia, fałszywa. Dlatego te odrzucenia nie są tak naprawdę błędami typu I.
gung - Przywróć Monikę