Test Kołmogorowa – Smirnowa: wartość p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby

12

Dlaczego wartości p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby? Weź ten kod Python jako przykład:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Wyniki są następujące:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Intuicyjnie rozumiem, że w miarę wzrostu n test jest „bardziej pewny”, że oba rozkłady są różne. Ale jeśli wielkość próbki jest bardzo duża, jaki jest sens testów podobieństwa, takich jak ten i powiedzmy test Andersona Darlinga lub test t, ponieważ w takich przypadkach, gdy n jest bardzo duże, zawsze okaże się, że rozkłady są "znacząco różne!? Teraz zastanawiam się, jaki jest sens wartości p. To zależy tak bardzo od wielkości próbki ... jeśli p> 0,05 i chcesz, aby była niższa, po prostu zdobądź więcej danych; a jeśli p <0,05, a chcesz, aby był wyższy, po prostu usuń niektóre dane.

Ponadto, jeśli dwa rozkłady byłyby identyczne, statystyka testu ks wynosiłaby 0, a wartość p 1. Ale w moim przykładzie, gdy n wzrasta, statystyki testu ks sugerują, że rozkłady stają się coraz bardziej podobne z czasem (maleje) , ale zgodnie z wartością p stają się one coraz bardziej różne w miarę upływu czasu (również maleją).

Oliver Angelil
źródło
Zobacz Czy testowanie normalności jest „zasadniczo bezużyteczne”? . Zauważ, że to, co mówisz, nie jest do końca prawdą: jeśli rozkłady są w rzeczywistości identyczne, rozkład wartości p pozostaje jednolity, nawet gdy zwiększasz wielkość próbki.
Scortchi - Przywróć Monikę
2
Miałem problem, który może odnosić się do tego: stats.stackexchange.com/questions/301628/… To mnie bardzo sceptycznie podchodziło do tego testu.
Aleksandar Jovanovic
To prawda, przy wystarczającej ilości danych możesz pokazać, że dowolnie małe, ale niezerowe rozmiary efektów są statystycznie znaczące. Kluczem tutaj jest rozpoznanie różnicy między istotnością statystyczną a praktyczną. Aby źle cytować Homera Simpsona, „możesz użyć wartości p, aby udowodnić wszystko, co jest nawet zdalnie prawdziwe”.
Nuclear Wang,

Odpowiedzi:

5

Statystyka testu spada, ponieważ twoje rozkłady są bardzo podobne, a większe próbki mają mniej hałasu. Jeśli miałbyś porównać dwa zastosowane rozkłady teoretyczne, powinieneś uzyskać „prawdziwą” statystykę KS. W miarę dodawania kolejnych danych szacowana statystyka KS powinna zbliżać się do tej prawdziwej wartości. Jednakże, nawet gdy twoja statystyka KS maleje, twoje zaufanie rośnie, że w rzeczywistości są to dwa różne rozkłady (tj. Spada wartość p), ponieważ masz większe zaufanie do swoich oszacowań poszczególnych rozkładów.

adam.r
źródło
3

Praktycznie: zdobycie większej ilości danych nie jest takie łatwe (chciałbym, żeby było). Usuwanie danych tylko po to, aby uzyskać pożądaną wartość , jest oszustwem akademickim, a jeśli zostaniesz złapany, masz kłopoty.p

Masz jednak rację, że sama wartość ma ograniczoną wartość. W najlepszym razie to tylko początek twojej analizy, a już na pewno nie koniec. Więcej informacji można znaleźć w oświadczeniu ASA na temat wartości . pp

Maarten Buis
źródło
Dzięki za odniesienie, ale wciąż nie jestem pewien, dlaczego statystyki testu ks zmniejszają większą n.
Oliver Angelil