Nauczyłem się, że mała wielkość próbki może prowadzić do niewystarczającej mocy i błędu typu 2. Mam jednak wrażenie, że małe próbki mogą być generalnie niewiarygodne i mogą przez przypadek doprowadzić do dowolnego wyniku. Czy to prawda?
hypothesis-testing
small-sample
parzysty
źródło
źródło
Odpowiedzi:
Zasadniczo mała wielkość próby nie zwiększy poziomu błędu typu I z tego prostego powodu, że test jest zorganizowany w celu kontroli wskaźnika typu I. (Istnieją drobne wyjątki techniczne związane z dyskretnymi wynikami, które mogą spowodować, że nominalna częstość Typu I nie zostanie osiągnięta dokładnie, szczególnie przy małych próbkach).
Jest tu ważna zasada : jeśli twój test ma akceptowalny rozmiar (= nominalna częstość Typu I) i dopuszczalną moc dla efektu, którego szukasz, to nawet jeśli próbka jest mała, jest w porządku.
Niebezpieczeństwo polega na tym, że jeśli w przeciwnym razie niewiele wiemy o sytuacji - być może są to wszystkie dane, które mamy - możemy być zaniepokojeni błędami „typu III”, to znaczy błędną specyfikacją modelu. Mogą być trudne do sprawdzenia przy małych zestawach próbek.
Jak praktyczny przykład interakcji pomysłów podzielę się historią. Dawno temu zostałem poproszony o zalecenie wielkości próbki w celu potwierdzenia oczyszczenia środowiska. Było to w fazie czyszczenia wstępnego, zanim mieliśmy jakiekolwiek dane. Mój plan wezwał do przeanalizowania około 1000 próbek, które zostaną uzyskane podczas oczyszczania (w celu ustalenia, że w każdym miejscu usunięto wystarczającą ilość gleby), aby ocenić średnią po wariancie oczyszczania i wariancję stężenia zanieczyszczenia. Następnie (aby znacznie uprościć) powiedziałem, że użyjemy formuły podręcznika - opartej na określonej mocy i rozmiarze testu - w celu ustalenia liczby niezależnych próbek potwierdzających, które zostaną użyte do udowodnienia, że czyszczenie się powiodło.
To, co sprawiło, że zapadło w pamięć, polegało na tym, że po zakończeniu czyszczenia formuła powiedziała, że używa tylko 3 próbek. Nagle moja rekomendacja nie wyglądała zbyt wiarygodnie!
Potrzebne są tylko 3 próbki, ponieważ czyszczenie było agresywne i działało dobrze. Zmniejszyło to średnie stężenie zanieczyszczeń do około 100, dając lub przyjmując 100 ppm, konsekwentnie poniżej celu 500 ppm.
W końcu to podejście zadziałało, ponieważ uzyskaliśmy 1000 wcześniejszych próbek (choć o niższej jakości analitycznej: mieli większy błąd pomiaru), aby ustalić, że przyjęte założenia statystyczne były w rzeczywistości dobre dla tej witryny. W ten sposób obsłużono potencjał błędu typu III.
Jeszcze jeden zwrot do rozważenia: wiedząc, że organ regulacyjny nigdy nie zatwierdzi użycia tylko 3 próbek, zaleciłem uzyskanie 5 pomiarów. Miały być one wykonane z 25 losowych próbek z całego miejsca, ułożonych w grupach po 5 osób. Statystycznie w końcowym teście hipotezy byłoby tylko 5 liczb, ale osiągnęliśmy większą moc w wykrywaniu izolowanego „gorącego punktu” poprzez pobranie 25 fizycznych próbki. Podkreśla to ważną zależność między liczbą liczb używanych w teście a sposobem ich uzyskania. W podejmowaniu decyzji statystycznych chodzi nie tylko o algorytmy z liczbami!
Ku mojej wiecznej uldze pięć złożonych wartości potwierdziło, że cel oczyszczania został osiągnięty.
źródło
Inną konsekwencją małej próbki jest wzrost błędu typu 2.
Nunnally wykazał w artykule „Miejsce statystyki w psychologii”, 1960, że małe próbki na ogół nie odrzucają hipotezy punkt zero. Hipoteza ta jest hipotezą mającą niektóre parametry równe zero i wiadomo, że są fałszywe w rozważanym doświadczeniu.
Przeciwnie, zbyt duże próbki zwiększają błąd typu 1, ponieważ wartość p zależy od wielkości próbki, ale poziom istotności alfa jest stały. Test na takiej próbce zawsze odrzuca hipotezę zerową. Przeczytaj „Nieistotność statystycznego testowania istotności” autorstwa Johnsona i Douglasa (1999), aby uzyskać przegląd tego problemu.
To nie jest bezpośrednia odpowiedź na pytanie, ale rozważania te się uzupełniają.
źródło