Za pomocą bootstrap obliczam wartości p testów istotności, stosując dwie metody:
- ponowne próbkowanie w ramach hipotezy zerowej i liczenie wyników co najmniej tak ekstremalnych, jak wynik pochodzący z pierwotnych danych
- ponowne próbkowanie w ramach alternatywnej hipotezy i liczenie wyników co najmniej tak odległych od pierwotnego wyniku, jak wartość odpowiadająca hipotezie zerowej
Uważam, że 1 st podejście jest całkowicie poprawna, ponieważ jest zgodna z definicją wartości ap. Nie jestem pewien co do drugiego, ale zwykle daje bardzo podobne wyniki i przypomina mi test Walda.
Czy mam rację? Czy obie metody są prawidłowe? Czy są identyczne (dla dużych próbek)?
Przykłady dwóch metod (zmiany po pytaniach DWina i odpowiedzi Erika):
Przykład 1. Stwórzmy test ładowania początkowego podobny do testu dwóch próbek T. Metoda 1 ponownie spróbuje z jednej próbki (uzyskanej przez połączenie dwóch oryginalnych). Metoda 2 przeprowadzi ponowne próbkowanie obu próbek niezależnie.Przykład 2. Stwórzmy test ładowania początkowego korelacji między x₁… xₐ i y₁… yₐ. Metoda 1 zakłada brak korelacji i ponowne próbkowanie, dopuszczając pary (xₑ, yₔ), gdzie e e ə. Metoda 2 skompiluje próbkę ładowania początkowego par oryginalnych (x, y).
Przykład 3. Stwórzmy test ładowania początkowego, aby sprawdzić, czy moneta jest uczciwa. Metoda 1 utworzy losowe próbki, ustawiając Pr (głowa) = Pr (ogon) = ½. Metoda 2 ponownie spróbuje próbki wartości eksperymentalnej głowy / ogona i porówna proporcje do ½.
Odpowiedzi:
Pierwsze podejście jest klasyczne i godne zaufania, ale nie zawsze można je zastosować. Aby uzyskać próbki ładowania początkowego przy założeniu hipotezy zerowej, musisz albo przyjąć teoretyczny rozkład do utrzymania ( jest to Twoja pierwsza opcja ), albo założyć, że twoja statystyka będąca przedmiotem zainteresowania ma ten sam rozkład dystrybucyjny, gdy zostanie przeniesiona do hipotezy zerowej ( druga opcja ). Na przykład, przy zwykłym założeniu, rozkład t ma ten sam kształt po przesunięciu na inną średnią. Jednak przy zmianie częstotliwości zerowej 0,5 rozkładu dwumianowego na 0,025 zmieni się również kształt.
Z mojego doświadczenia wynika, że w przypadku, gdy jesteś skłonny przyjąć te założenia, często masz także inne możliwości. W twoim przykładzie 1), w którym wydaje się, że obie próbki mogły pochodzić z tej samej populacji podstawowej, test permutacji byłby moim zdaniem lepszy.
Jest jeszcze inna opcja (która wydaje się Twoim drugim wyborem), która opiera się na przedziałach ufności bootstrap. Zasadniczo zakłada to, że jeśli podany zasięg utrzymuje, że to znaczenie na poziomie jest równoważne hipotezie zerowej nieuwzględnionej w przedziale ufności . Zobacz na przykład to pytanie: Jaka jest różnica między przedziałami ufności a testowaniem hipotez?α (1−α)
Jest to bardzo elastyczna metoda, mająca zastosowanie w wielu testach. Jednak bardzo ważne jest skonstruowanie dobrych przedziałów ufności bootstrapu, a nie tylko stosowanie przybliżeń Walda lub metody percentyla. Kilka informacji tutaj: przedział ufności oparty na Bootstrap
źródło