Czy duże zestawy danych są nieodpowiednie do testowania hipotez?

129

W ostatnim artykule z Amstat Nowiny , autorzy (Mark van der Laan i Sherri ROSE) stwierdził, że: „Wiemy, że dla dostatecznie dużych rozmiarach próbki, co study-włączając te, w których hipoteza zerowa nie efekt jest prawdziwe - będzie zadeklarować statystycznie istotny efekt. ”.

Cóż, ja nie wiedziałem o tym. Czy to prawda? Czy to oznacza, że testowanie hipotez jest bezwartościowe w przypadku dużych zbiorów danych?

hypothesis-testing sample-size dataset large-data Carlos Accioly
źródło

10

+1: to pytanie zwykle ujawnia jakiś interesujący punkt widzenia.

user603

7

Więcej dyskusji na temat dużych zestawów danych można znaleźć na stronie stats.stackexchange.com/q/7815/919 . (Nacisk kładziony jest na modelowanie regresji.)

whuber

1

powiązany wątek ?

Antoine

8

Jeśli duża próbka sprawia, że uważasz, że testowanie hipotez było niewłaściwym narzędziem, to testowanie hipotez nie było w rzeczywistości odpowiedzią na właściwe pytanie przy mniejszych próbkach - że było błędne, stało się bardziej oczywiste przy dużych próbkach, ale te same uwagi są istotne . Jeśli znaczący wynik przy bardzo małym rozmiarze efektu powoduje, że mówisz „cóż, nie tego chciałem, chciałem, aby powiedział mi, czy to ważne”, to testowanie hipotez było po prostu niewłaściwym narzędziem na początek. Istnieją bardziej odpowiednie narzędzia (np. Przedziały ufności, testy równoważności itp.) Dla tego rodzaju problemów.

Glen_b

91

To nie prawda. Jeśli hipoteza zerowa jest prawdziwa, nie będzie odrzucana częściej przy dużych próbkach niż małych. Istnieje błędny współczynnik odrzucenia, który zwykle jest ustawiony na 0,05 (alfa), ale jest niezależny od wielkości próbki. Dlatego, dosłownie, stwierdzenie jest fałszywe. Niemniej jednak możliwe jest, że w niektórych sytuacjach (nawet całe pola) wszystkie wartości null są fałszywe, a zatem wszystkie zostaną odrzucone, jeśli N jest wystarczająco wysokie. Ale czy to źle?

Prawdą jest, że banalnie małe efekty mogą być „znaczące” przy bardzo dużych próbkach. Nie oznacza to, że nie powinieneś mieć tak dużych próbek. Oznacza to, że sposób interpretacji wyników zależy od wielkości efektu i czułości testu. Jeśli masz bardzo mały rozmiar efektu i bardzo czuły test, musisz uznać, że statystycznie istotne odkrycie może nie być znaczące lub przydatne.

Biorąc pod uwagę, że niektórzy ludzie nie wierzą, że test hipotezy zerowej, gdy zerowa jest prawdziwa , zawsze ma współczynnik błędów równy punktowi odcięcia wybranemu dla dowolnej wielkości próbki, oto prosta symulacja w Rudowodnieniu tego punktu. Ustaw N na tyle, ile chcesz, a częstość błędów typu I pozostanie stała.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

Jan
źródło

8

+1: rzeczywiście wszystkie trzy odpowiedzi tutaj są logicznie spójne ze sobą.

user603

1

W końcu znalazłem obalenie czegoś, co dawno temu powiedział mi profesor (niestatystyczny).

Jase

1

@Sympa, nie. To, że SE maleje wraz ze wzrostem N, nie oznacza, że zawsze znajdziesz efekt z dużym N (patrz symulacja). Należy pamiętać, że wraz ze spadkiem SE rośnie jakość oszacowania efektu. Jeśli nie ma efektu populacyjnego, to jest znacznie bardziej prawdopodobne, że jest bliskie zeru i nie wykazuje żadnej różnicy. W rzeczywistości rozkład wartości p jest płaski, niezależnie od wielkości próbki, ilekroć wartość null jest prawdziwa (napisz dla tego swoją symulację). W odpowiedzi nie ma sprzeczności.

John

4

Wtedy się mylisz. Możesz również rozważyć przeczytanie innych odpowiedzi tutaj. Ponieważ nie można śledzić związku między symulacją a testowaniem hipotez, mogę jedynie wskazać na twoje główne twierdzenie, że wraz ze spadkiem standardowego błędu t wzrasta, a p maleje. Jest to prawdą tylko wtedy, gdy efekt pozostaje stały. Ale efekt jest próbką losową, a gdy prawdziwy efekt wynosi 0, wówczas, gdy N wzrasta, obserwowany efekt ma tendencję do zmniejszania się. Dlatego nawet, gdy N zwiększa SE, maleje, to nie zwiększa wartości t, ponieważ licznik wartości t również będzie niższy.

John

1

Fakt, że rnorm nie może wygenerować liczby niewymiernej, nie ma znaczenia w tym przykładzie. Nawet jeśli nie rysuje dokładnie normalnej ze średniej 0 i sd 1, to jest to samo nie jest normalne dla obu próbek. Współczynnik błędów typu I może być bardzo nieznacznie niższy niż 0,05, ale powinien pozostać niezmienny niezależnie od N. I to nie dotyczy wszystkich symulacji, ponieważ mogłem wybrać dyskretny, w którym nie jest to problemem. (Jeśli naprawdę chciałeś poruszyć problem ezoteryczny, powinieneś był zająć się pseudolosową).

John

31

Zgadzam się z odpowiedziami, które się pojawiły, ale chciałbym dodać, że być może pytanie mogłoby zostać przekierowane. To, czy przetestować hipotezę, czy nie, jest pytaniem badawczym, które powinno, przynajmniej ogólnie, być niezależne od ilości danych. Jeśli naprawdę potrzebujesz przetestować hipotezę, zrób to i nie bój się swojej zdolności do wykrywania niewielkich efektów. Ale najpierw zapytaj, czy to część twoich celów badawczych.

Teraz kilka drobiazgów:

Niektóre hipotezy zerowe są absolutnie prawdziwe z założenia. Gdy testujesz na przykład generator liczb pseudolosowych pod kątem równomierności, a ten PRG jest naprawdę równomiernie rozłożony (co byłoby twierdzeniem matematycznym), wtedy wartość null jest zachowana. Prawdopodobnie większość z was myśli o bardziej interesujących rzeczywistych przykładach wynikających z randomizacji w eksperymentach, w których leczenie naprawdę nie ma żadnego efektu. (Jako przykład podałbym całą literaturę na temat esp ;-)
W sytuacji, w której występuje „prosta” brak jest pod kątem „związek” alternatywy, jak w klasycznych testów t lub Z badań, zwykle przyjmuje wielkość próbki proporcjonalna do w celu wykrycia wielkości Wpływ . W każdym badaniu istnieje praktyczna górna granica tego, co oznacza, że istnieje praktyczna dolna granica wykrywalnego rozmiaru efektu. Tak więc teoretycznie der Laan i Rose mają rację, ale powinniśmy zachować ostrożność, stosując ich wnioski. $1/\epsilon^2$ $\epsilon$

Whuber
źródło

Czy to wszystko nie jest kwestią błędu typu I w porównaniu do błędu typu II (lub mocy)? Jeśli ustalimy prawdopodobieństwo błędu typu I ( ) na 0,05, to oczywiście (z wyjątkiem przypadku dyskretnego) będzie 0,05, czy próbka jest duża, czy nie. Ale dla danego prawdopodobieństwa błędu typu I 0,05, np. Moc lub prawdopodobieństwo, że wykryjesz efekt, gdy jest, jest większe dla dużych próbek.

α

$\alpha$

@fcop Twoje komentarze, choć poprawne, wydają się dotyczyć innych odpowiedzi. Brakuje im sensu tego, który sugeruje, że nie wszystkie analizy statystyczne muszą być testami hipotez. Błędy typu I i II mają znaczenie tylko podczas przeprowadzania formalnych testów hipotez.

whuber

OP odnosi się do stwierdzenia: „Wiemy, że dla wystarczająco dużych próbek, każde badanie - w tym te, w których hipoteza zerowa braku efektu jest prawdziwa - zadeklaruje statystycznie znaczący efekt.” „Więc jeśli przetestujesz np. kontra to w dużych próbkach moc jest tak duża, że „wykrywasz” nawet niewielkie odchylenia od 1. Więc myślę, że ich stwierdzenie jest nieprawidłowe, ale ta moc w dużych próbkach pozwala ci w celu wykrycia bardzo małych różnic.

H_{0} : μ = 1

$H_0: \mu=1$

H_{1} : μ \neq 1

$H_1: \mu \ne 1$

@fcop Dziękujemy za wyjaśnienie. Zgadzam się z twoim rozumowaniem: kiedy zero jest prawdziwe, wówczas nawet duże badania przyniosą znaczący efekt z szansą co najwyżej równą rozmiarowi ich testu - to znaczy, że nie będą w stanie znaleźć znaczącego efektu.

whuber

19

Testowanie hipotez tradycyjnie koncentruje się na wartościach p, aby uzyskać statystyczną istotność, gdy alfa jest mniejsze niż 0,05, ma znaczną słabość. Oznacza to, że przy wystarczająco dużej próbce każdy eksperyment może ostatecznie odrzucić hipotezę zerową i wykryć trywialnie małe różnice, które okazują się istotne statystycznie.

To jest powód, dla którego firmy farmaceutyczne opracowują badania kliniczne w celu uzyskania zgody FDA na bardzo duże próbki. Duża próbka zmniejszy błąd standardowy do zera. To z kolei sztucznie zwiększy statystykę i proporcjonalnie obniży wartość p, aby zbliżyć się do 0%.

Zbieram się w społecznościach naukowych, które nie są skorumpowane przez zachęty ekonomiczne, a testowanie hipotez konfliktu interesów odchodzi od wszelkich pomiarów wartości p w kierunku pomiarów wielkości efektu. Wynika to z faktu, że jednostką statystycznej odległości lub różnicowania w analizie wielkości efektu jest odchylenie standardowe zamiast błędu standardowego. Odchylenie standardowe jest całkowicie niezależne od wielkości próbki. Z drugiej strony błąd standardowy jest całkowicie zależny od wielkości próbki.

Tak więc każdy, kto jest sceptyczny wobec testowania hipotez, osiągając statystycznie znaczące wyniki na podstawie dużych próbek i metodologii związanych z wartością p, ma prawo być sceptyczny. Powinny one ponownie uruchomić analizę przy użyciu tych samych danych, ale zamiast tego używając testów statystycznych wielkości efektu. Następnie obserwuj, czy rozmiar efektu jest uważany za istotny, czy nie. W ten sposób można zaobserwować, że kilka różnic, które są istotne statystycznie, są powiązane z wielkością efektu, która jest nieistotna. To właśnie mają na myśli badacze badań klinicznych, gdy wynik jest statystycznie istotny, ale nie „klinicznie istotny”. Rozumie się przez to, że jedno leczenie może być lepsze niż placebo, ale różnica jest tak marginalna, że nie miałoby znaczenia dla pacjenta w kontekście klinicznym.

Sympa
źródło

1

Duża próbka jednej osoby jest małą próbką innej osoby. :)

Iterator

3

Nie zadałeś wtedy niewłaściwego pytania? Może proces zatwierdzania przez FDA powinien określać większy zysk w porównaniu z placebo (być może związany z kosztami leku, w tym jego negatywnymi skutkami) zamiast wymagać jedynie statystycznego znaczenia? Ponieważ może być bardzo istotna różnica, choć bardzo mała, i wykazano, że różnica ta jest statystycznie istotna, jakkolwiek jest niewielka.

Emil Vikström

FDA nie wymaga „tylko statystycznego znaczenia”. To byłoby absurdalne. Wszyscy w branży rozumieją, co oznacza „klinicznie znaczący”. FDA waży dane statystyczne dotyczące skuteczności leku mierzone klinicznymi punktami końcowymi, takimi jak remisja, w odniesieniu do obaw dotyczących zdrowia i bezpieczeństwa. Przed sformułowaniem bezpodstawnych stwierdzeń przeczytaj wytyczne FDA.

qwr

15

Test (częstokroć) hipotezy, dokładnie dotyczy pytania o prawdopodobieństwo zaobserwowanych danych, lub coś bardziej ekstremalnego byłoby prawdopodobne, zakładając, że hipoteza zerowa jest prawdziwa. Ta interpretacja jest obojętna na wielkość próby. Ta interpretacja jest ważna bez względu na to, czy próbka ma rozmiar 5 czy 1 000 000.

Ważnym zastrzeżeniem jest to, że test dotyczy tylko błędów próbkowania. Wszelkie błędy pomiaru, problemy z próbkowaniem, zasięg, błędy wprowadzania danych itp. Są poza zakresem błędu próbkowania. Wraz ze wzrostem wielkości próby błędy niezwiązane z próbkowaniem stają się coraz bardziej wpływowe, ponieważ małe odstępstwa mogą powodować znaczące odstępstwa od modelu losowego próbkowania. W rezultacie testy istotności stają się mniej przydatne.

Nie jest to w żaden sposób oskarżenie o testowanie istotności. Musimy jednak uważać na nasze atrybucje. Wynik może być statystycznie istotny. Musimy jednak zachować ostrożność, jeśli chodzi o sposób przypisywania, gdy wielkość próby jest duża. Czy ta różnica wynika z naszego hipotetycznego procesu generowania w odniesieniu do błędu próbkowania, czy jest to wynikiem któregokolwiek z wielu możliwych błędów niezwiązanych z próbkowaniem, które mogłyby wpłynąć na statystyki testowe (których statystyki nie uwzględniają)?

Innym czynnikiem uwzględniającym duże próbki jest praktyczne znaczenie wyniku. Znaczący test może sugerować (nawet jeśli możemy wykluczyć błąd braku próbkowania) różnicę, która w sensie praktycznym jest banalna. Nawet jeśli wynik ten jest mało prawdopodobny, biorąc pod uwagę model próbkowania, czy jest on istotny w kontekście problemu? Biorąc pod uwagę wystarczająco dużą próbę, różnica w kilku dolarach może być wystarczająca, aby uzyskać wynik, który jest statystycznie istotny przy porównywaniu dochodów między dwiema grupami. Czy to ważne w jakimkolwiek sensownym znaczeniu? Znaczenie statystyczne nie zastępuje dobrej oceny sytuacji i wiedzy merytorycznej.

Nawiasem mówiąc, zerowy nie jest ani prawdziwy, ani fałszywy. To jest model. To założenie. Zakładamy, że zero jest prawdziwe i oceniamy naszą próbkę pod kątem tego założenia. Jeśli nasza próba byłaby mało prawdopodobna przy takim założeniu, pokładamy większe zaufanie w naszej alternatywie. Kwestionowanie, czy wartość zerowa jest kiedykolwiek prawdziwa w praktyce, jest nieporozumieniem z logiką testowania istotności.

Brett
źródło

3

Potwierdza to argument za zwiększoną złożonością modelu, gdy rozmiary próbek stają się duże - w przypadku dużych próbek błąd próbkowania nie jest już dominującym źródłem niepewności. Oczywiście to tylko „ma sens” w ramach Bayesa, co pozwala na inne źródła niepewności oprócz błędu próbkowania.

probabilityislogic

13

Jedną prostą kwestią, której nie podano bezpośrednio w innej odpowiedzi, jest to, że po prostu nie jest prawdą, że „wszystkie hipotezy zerowe są fałszywe”.

Prosta hipoteza, że fizyczna moneta ma prawdopodobieństwo dokładnie równe 0,5, ok, to jest fałsz.

Ale hipoteza złożona, że fizyczna moneta ma prawdopodobieństwo przewyższenia 0,499 i mniej niż 0,501, może być prawdziwa. Jeśli tak, to żaden test hipotezy - bez względu na liczbę rzutów monetą - nie będzie w stanie odrzucić tej hipotezy z prawdopodobieństwem większym niż (wyniki testu są fałszywie dodatnie). $\alpha$

Z tego powodu przemysł medyczny cały czas testuje hipotezy „non-inferiority” - np. Nowy lek przeciwnowotworowy musi wykazać, że prawdopodobieństwo jego przeżycia bez progresji nie jest niższe niż 3 punkty procentowe niż w przypadku istniejącego leku , na pewnym poziomie ufności ( , zwykle 0,05). $\alpha$

Keith Winstein
źródło

9

W pewnym sensie [wszystkie] wiele hipotez zerowych jest [zawsze] fałszywych (grupa ludzi mieszkających w domach o nieparzystych liczbach nigdy nie zarabia dokładnie tyle samo, co grupa ludzi mieszkających w domach o parzystych liczbach).

W ramach częstokroć zadawane jest pytanie, czy różnica w dochodach między dwiema grupami jest większa niż (gdzie jest kwantylem rozkładu statystyka testowa pod wartością zerową). Oczywiście dla rosnącej bez granic, ten zespół staje się coraz łatwiejszy do przebicia. $T_{\alpha}n^{-0.5}$ $T_{\alpha}$ $\alpha$ $n$

To nie jest wada testów statystycznych. Jest to po prostu konsekwencja faktu, że bez dalszych informacji (a priori) mamy do czynienia z dużą liczbą niewielkich niezgodności z wartością zerową jako dowodem przeciwko wartości zerowej. Bez względu na to, jak banalne są te niespójności.

W dużych badaniach interesujące staje się wówczas ponowne sformułowanie problemu jako testu bayesowskiego, tj. Zadanie sobie (na przykład) pytania, co to jest . $\hat{P}(|\bar{\mu}_1-\bar{\mu}_2|^2>\eta|\eta, X)$

użytkownik603
źródło

To dziwne ... intuicyjnie, wydaje się to sprzeczne z prawem wielkich liczb.

Carlos Accioly

Carlos:> czy możesz być bardziej szczegółowy?

user603

LLN w zasadzie stwierdza, że im większa jest twoja próbka, tym lepiej reprezentuje „rzeczywisty” rozkład prawdopodobieństwa. W twoim przykładzie, im więcej numerów domów zbadam, tym bliżej 50% będzie liczba domów o nieparzystych numerach. Brzmi więc dziwnie, że łatwiej jest ci przebić się przez pasmo, ponieważ zmniejsza się proporcjonalnie do pierwiastka kwadratowego z . (Czy mam tu sens?)

n

$n$

Carlos Accioly,

1

@Carlos - ale konwergencja nie oznacza równości; jest to gwarantowane tylko w przypadku nieosiągalnego limitu nieskończoności. Więc nie ma sprzeczności ;-)

5

Krótka odpowiedź brzmi „nie”. Badania nad testowaniem hipotez w asymptotycznym reżimie nieskończonych obserwacji i wielu hipotez były bardzo, bardzo aktywne w ciągu ostatnich 15-20 lat, z powodu danych z mikromacierzy i danych finansowych. Długa odpowiedź znajduje się na stronie kursu Stat 329, „Symultaniczne wnioskowanie na dużą skalę”, nauczanej w 2010 roku przez Brada Efrona. Pełny rozdział poświęcony jest testowanie hipotez na dużą skalę.

niezadowolony
źródło

7

Uważam, że książka Efrona koncentruje się na dużej liczbie zmiennych (i wynikających z tego wynikłych problemach z testowaniem), a nie na wielkości próby.

Galit Shmueli,

4

Testowanie hipotez dla dużych danych powinno uwzględniać pożądany poziom różnicy, a nie to, czy istnieje różnica, czy nie. H0 nie interesuje cię, że oszacowanie wynosi dokładnie 0. Ogólnym podejściem byłoby sprawdzenie, czy różnica między hipotezą zerową a obserwowaną wartością jest większa niż podana wartość odcięcia.

Prosty przykład z testem T: Możesz przyjąć następujące założenia dla dużych próbek, biorąc pod uwagę, że masz jednakowe rozmiary próbek i standardowe odchylenia w obu grupach, i : stąd $\bar{X_1} > \bar{X_2}$

T = \frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} + \frac{δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}+\frac{\delta}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

T = \frac{\bar{X 1} - \bar{X 2}}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

jak twoja hipoteza oznacza: $H_0:\bar{X1}-\bar{X2} = \delta$

\frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (0, 1)

$\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}\approx N(0,1)$

Można to łatwo wykorzystać do przetestowania znaczącej i istotnej różnicy. W R można użyć parametru niecentryczności rozkładów T, aby uogólnić ten wynik również dla mniejszych próbek. Należy wziąć pod uwagę, że jest to test jednostronny, alternatywnym jest . $H_A$ $\bar{X1}-\bar{X2} > \delta$

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Co daje :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100

Joris Meys
źródło

czy w pierwszym równaniu nie ma literówki kopiowania / przeszłości?

user603,

Nie widzę tego

Joris Meys,

4

„Czy to oznacza, że testowanie hipotez jest bezwartościowe w przypadku dużych zbiorów danych?”

Nie, to nie znaczy, że Ogólny przekaz jest taki, że decyzje podejmowane po przeprowadzeniu testu hipotez powinny zawsze uwzględniać szacunkową wielkość efektu, a nie tylko wartość p. W szczególności w eksperymentach z bardzo dużymi rozmiarami próby konieczność uwzględnienia wielkości efektu staje się dramatyczna. Oczywiście, ogólnie rzecz biorąc, użytkownikom się to nie podoba, ponieważ procedura staje się mniej „automatyczna”.

Rozważ ten przykład symulacji. Załóżmy, że masz losową próbkę 1 miliona obserwacji ze standardowego rozkładu normalnego,

n <- 10^6
x <- rnorm(n)

$0.01$

y <- rnorm(n, mean = 0.01)

$95\%$ $2.5\times 10^{-14}$

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

$95\%$ $[-0.013, -0.008]$

Czy różnica między dwoma średnimi populacji tego rzędu wielkości ma znaczenie dla konkretnego problemu, który badamy, czy nie?

Zen
źródło

Zgadzam się ze wszystkim w twojej odpowiedzi, z wyjątkiem tego pierwszego zdania, które zmienię na „Tak, zwykle oznacza to, że”, ponieważ przy dużych próbkach około miliona wielkości efektów są TAK małe.

zbicyclist,

α

$\alpha$

3

$H_{ST}:d_{1}=1.23,d_{2}=1.11,\dots$ $d_{i}$

Ale zwykle nie interesuje nas ta pewna hipoteza. Jeśli pomyślisz o tym, co naprawdę chcesz zrobić z testem hipotez, wkrótce zrozumiesz, że powinieneś odrzucić hipotezę zerową tylko wtedy, gdy masz coś lepszego, aby ją zastąpić. Nawet jeśli twój null nie wyjaśnia danych, nie ma sensu ich wyrzucać, chyba że masz zamiennik. Czy teraz zawsze zastępowałbyś zerową hipotezą „pewna rzecz”? Prawdopodobnie nie, ponieważ nie można użyć tej hipotezy „pewności” do uogólnienia poza zestaw danych. To niewiele więcej niż drukowanie danych.

Zatem powinieneś sprecyzować hipotezę, zgodnie z którą byłbyś zainteresowany działaniem, gdyby były prawdziwe. Następnie wykonaj odpowiedni test, aby porównać te alternatywy ze sobą - a nie z jakąś nieistotną klasą hipotez, o których wiesz, że są fałszywe lub bezużyteczne.

$H_{0}:\mu=0$ $H_{1}:\mu\in\{\pm 1,\pm 2,\pm 3,\pm 4,\pm 5,\pm 6\}$ $0.5$ $100$

Wniosek jest w zasadzie taki, że musisz określić swoją przestrzeń hipotez - te hipotezy, którymi naprawdę jesteś zainteresowany. Wydaje się, że w przypadku dużych zbiorów danych staje się to bardzo ważną rzeczą, po prostu dlatego, że dane mają tak dużą zdolność rozstrzygania. Wydaje się również, że ważne jest porównanie jak hipoteza - punkt z punktem, związek ze związkiem - aby uzyskać dobrze zachowane wyniki.

prawdopodobieństwo prawdopodobieństwa
źródło

3

Nie. Prawdą jest, że wszystkie przydatne testy hipotezy punktowej są spójne, a zatem pokażą znaczący wynik, jeśli tylko wielkość próbki jest wystarczająco duża i istnieje jakiś nieistotny efekt. Aby przezwyciężyć tę wadę testowania hipotez statystycznych (wspomnianą już w odpowiedzi Lwa Gaetana powyżej), istnieją testy trafności. Są one podobne do testów równoważności, ale jeszcze mniej powszechne. W przypadku testu trafności wielkość minimalnego istotnego efektu jest wstępnie określona. Test trafności może opierać się na przedziale ufności dla efektu: Jeśli przedział ufności i region trafności są rozłączne, możesz odrzucić wartość zerową.

Jednak van der Laan i Rose zakładają w swoim oświadczeniu, że nawet prawdziwe hipotezy zerowe są testowane w badaniach. Jeśli hipoteza zerowa jest prawdziwa, skłonność do odrzucenia nie jest większa niż alfa, szczególnie w przypadku dużych próbek, a nawet błędnie określona, widzę tylko, że rozkład próbek jest systematycznie różny od rozkładu populacji,

Horst Grünbusch
źródło

3

Artykuł, o którym wspominasz, ma rację, jeśli chodzi o standardowe testy częstokrzyskie. Dlatego testowanie danego rozmiaru efektu jest bardzo ważne. Aby to zilustrować, oto anova między 3 grupami, gdzie grupa B nieco różni się od grupy A i C. wypróbuj to w:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Zgodnie z oczekiwaniami, przy większej liczbie próbek na test, istotność statystyczna testu wzrasta:

Lucas Fortini
źródło

2

Myślę, że mają na myśli to, że często zakłada się gęstość prawdopodobieństwa hipotezy zerowej, która ma „prostą” formę, ale nie odpowiada rzeczywistej gęstości prawdopodobieństwa.

Teraz przy małych zestawach danych możesz nie mieć wystarczającej czułości, aby zobaczyć ten efekt, ale przy wystarczająco dużym zestawie danych odrzucisz hipotezę zerową i stwierdzisz, że istnieje nowy efekt zamiast wnioskować, że twoje założenie dotyczące hipotezy zerowej jest błędne.

Andre Holzner
źródło

1

Nie wiem, czy Mark i Shern mieli na myśli twój pogląd, ale po prostu przeformułuj swój punkt - jeśli model danych poniżej wartości zerowej jest „zły”, to odrzucisz hipotezę zerową dla wystarczająco dużych danych.

1

$\alpha$

$H_0$ $H_1$

Moc rośnie wraz z rozmiarem próbki (wszystkie inne rzeczy są równe).

Ale stwierdzenie, że „wiemy, że dla wystarczająco dużych próbek, każde badanie - w tym te, w których hipoteza zerowa braku efektu jest prawdziwa - zadeklaruje statystycznie znaczący efekt”. jest nieprawidłowe.

źródło

Czy duże zestawy danych są nieodpowiednie do testowania hipotez?

Odpowiedzi: