Co się stało ze znaczeniem statystycznym w regresji, gdy rozmiar danych jest gigantyczny?

13

Czytałem to pytanie dotyczące regresji na dużą skalę ( link ), gdzie whuber wskazał interesujący punkt w następujący sposób:

„Prawie każdy test statystyczny, który przeprowadzisz, będzie tak potężny, że prawie na pewno zidentyfikujesz„ znaczący ”efekt. Musisz skupić się bardziej na znaczeniu statystycznym, takim jak wielkość efektu, a nie na znaczeniu”.

--- whuber

Zastanawiałem się, czy jest to coś, co można udowodnić, czy po prostu jakieś powszechne zjawiska w praktyce?

Każdy wskaźnik do dowodu / dyskusji / symulacji byłby naprawdę pomocny.

regression statistical-significance Bayesric
źródło

1

Rozmiar efektu ma znaczenie. (+1 do odpowiedzi Glen_b). Dając szybki przykład: gdybyśmy byli otyli, nie zmienilibyśmy naszej obecnej diety na nową, droższą, jeśli spowodowałaby utratę masy ciała o 0,05 kg po miesiącu, nawet gdyby miała wartość

. Nadal bylibyśmy otyli, tylko biedniejsi. Z tego, co wiemy, tak niewielki spadek masy ciała może wynikać z kliniki zdrowia, że nagrania zostały przeniesione z gruntu budynku bez windy na czwarte piętro tego samego budynku. (Ładne pytanie + 1)

p

$p$

\leq 0.0000000001

$\leq 0.0000000001$

usεr11852

10

To jest dość ogólne.

Wyobraź sobie, że istnieje niewielki, ale niezerowy efekt (tj. Pewne odchylenie od wartości zerowej, którą test może wykryć).

Przy małych rozmiarach próby szansa na odrzucenie będzie bardzo zbliżona do poziomu błędu typu I (szum dominuje mały efekt).

Wraz ze wzrostem wielkości próby szacowany efekt powinien zbiegać się z efektem populacyjnym, a jednocześnie zmniejsza się niepewność szacowanego efektu (zwykle jako ), dopóki szansa, że sytuacja zerowa jest wystarczająco bliska oszacowanemu efektowi, że jest ona nadal prawdopodobna w losowo wybranej próbie z populacji, zmniejsza się do zera. $\sqrt{n}$

To znaczy, z punktowymi zerami, ostatecznie odrzucenie staje się pewne, ponieważ w prawie wszystkich rzeczywistych sytuacjach zasadniczo zawsze będzie pewne odchylenie od zera.

Glen_b - Przywróć Monikę
źródło

„... ponieważ w prawie wszystkich rzeczywistych sytuacjach zasadniczo zawsze będzie jakieś odchylenie od zera”. Jest tam i można to nawet zobaczyć. To byłaby raczej dobra właściwość, czyż nie?

Trilarion

„Null” odnosi się tutaj do hipotezy zerowej, że współczynnik jest równy zero?

Arash Howaida

Myślę, że odpowiedź Glen_b jest ogólna i ma zastosowanie do wszelkich testów hipotez z zerowym punktem. W kontekście regresji, tak, zero oznacza, że współczynnik wynosi zero. Moje własne zrozumienie ...

Bayesric

4

Nie jest to dowód, ale nie jest trudno wykazać wpływ wielkości próby w praktyce. Chciałbym użyć prostego przykładu z Wilcox (2009) z niewielkimi zmianami:

$H_0: \mu \geq 50$ $\alpha = .05$

Do tej analizy możemy użyć testu t:

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

$\bar X$ $s$

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44.

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

$t$ $ν$ $v = 10 -1$ $P(T \leq - 1.83)= .05$ $T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

$v = 100 - 1$ $P(T \leq -1.66) = .05$ $s/\sqrt{n}$ $T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$

Wilcox, RR, 2009. Podstawowe statystyki: zrozumienie metod konwencjonalnych i współczesnych spostrzeżeń . Oxford University Press, Oxford.

TEG - Przywróć Monikę
źródło

1

Dziękuję za odpowiedź. Twoja odpowiedź stanowi konkretne demo odpowiedzi Glen_b: gdy wielkość próbki jest bardzo duża, niewielkie odchylenie od zera (w praktyce zawsze występuje niewielkie odchylenie) zostanie zarejestrowane jako znaczący efekt.

Bayesric,

2

W regresji, dla całego modelu, test jest na F. Tutaj

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$

R S S_{1}

$RSS_1$

R S S_{2}

$RSS_2$

Peter Flom - Przywróć Monikę
źródło

1

Dziękuję za odpowiedź. Jestem jednak sceptycznie nastawiony do „kiedy N staje się większy, F staje się większy”; gdy N wzrasta, RSS2 również rośnie, nie jest dla mnie jasne, dlaczego F będzie większy.

Bayesric,

@Peter Flom jest to nierealne, ale czy możesz zajrzeć tutaj stats.stackexchange.com/questions/343518/…

user3022875

Co się stało ze znaczeniem statystycznym w regresji, gdy rozmiar danych jest gigantyczny?

Odpowiedzi: