Dlaczego statystyka T potrzebuje danych do normalnego rozkładu

11

Patrzyłem na ten zeszyt i zastanawia mnie to stwierdzenie:

Kiedy mówimy o normalności, mamy na myśli, że dane powinny wyglądać jak rozkład normalny. Jest to ważne, ponieważ polega na tym kilka testów statystycznych (np. Statystyki t).

Nie rozumiem, dlaczego statystyka T potrzebuje danych do normalnego rozkładu.

Rzeczywiście Wikipedia mówi to samo:

Rozkład t-Studenta (lub po prostu rozkład t) to dowolny członek rodziny ciągłych rozkładów prawdopodobieństwa, który powstaje przy szacowaniu średniej populacji normalnie rozłożonej

Nie rozumiem jednak, dlaczego to założenie jest konieczne.

Nic z jego formuły nie wskazuje mi, że dane muszą mieć normalny rozkład:

Spojrzałem trochę na jego definicję, ale nie rozumiem, dlaczego warunek jest konieczny.

mathematical-statistics normal-distribution oktawski
źródło

17

Wymagane informacje znajdują się w sekcji „Charakterystyka” na stronie Wiki . -Dystrybucja ze stopniami swobody można zdefiniować jako rozkładu zmiennej losowej w taki sposób, gdzie to rozkładu normalnego zmienna losowa, a jest zmienną losową o stopniach swobody . Ponadto i muszą być niezależne. Biorąc pod uwagę dowolne i zgodne z powyższą definicją, możesz następnie uzyskać losową zmienną, która ma $t$ $\nu$ $T$

T = \frac{Z}{\sqrt{V / ν}},

$T = \dfrac{Z}{\sqrt{V/\nu}} \,,$

Z

$Z$

V

$V$

χ^{2}

$\chi^2$

ν

$\nu$

Z

$Z$

V

$V$

Z

$Z$

V

$V$

t

$t$ dystrybucja.

Teraz załóżmy, rozpowszechniany jest zgodnie z rozkładem . Niech ma średnią i wariancję . Niech będzie średnią próbną, a będzie wariancją próbkową. Następnie przyjrzymy się formułom: $X_1, X_2, \dots, X_n$ $F$ $F$ $\mu$ $\sigma^2$ $\bar{X}$ $S^2$

\frac{\bar{X} - μ}{S / \sqrt{n}} = \frac{\frac{\bar{X} - μ}{σ / \sqrt{n}}}{\sqrt{\frac{(n - 1) S^{2}}{(n - 1) σ^{2}}}} .

$\dfrac{\bar{X} - \mu}{S/\sqrt{n}} = \dfrac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}} \,.$

Jeśli oznacza rozkład normalny, to , a zatem . Ponadto według Twierdzenia Cochrana . Wreszcie zastosowaniu twierdzenia Basu w , a są niezależne. Oznacza to, że uzyskana statystyka ma rozkład z stopniami swobody. $F$ $\bar{X} \sim N(\mu, \sigma^2/n)$ $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ $\bar{X}$ $S^2$ $t$ $n-1$

Jeśli pierwotny rozkład danych nie był normalny, wówczas dokładny rozkład licznika i mianownika nie będzie odpowiednio standardowy normalny i , a zatem uzyskane statystyki nie będą miały rozkładu . $F$ $\chi^2$ $t$

Greenparker
źródło

3

Zawsze interesowało mnie, jak bardzo technologia matematyczna wchodzi w te fundamentalne wyniki w statystyce matematycznej.

Matthew Drury,

3

Dobry post Nie musimy jednak przywoływać tych wielkich twierdzeń, aby udowodnić niezależność między i , a także . Zobacz pierwszą odpowiedź tego postu.

\bar{X}

$\bar{X}$

S

$S$

χ^{2}

$\chi^2$

Zhanxiong,

2

Myślę, że może być pewne zamieszanie między statystyką i jej formułą, a rozkładem i jej formułą. Możesz zastosować formułę statystyki t do dowolnego zestawu danych i uzyskać „statystykę t”, ale ta statystyka nie będzie dystrybuowana zgodnie z rozkładem t-ucznia, chyba że dane pochodzą z rozkładu normalnego (a przynajmniej nie będą gwarantuję, że tak; przypuszczam, że niestandardowe rozkłady nie wytworzą rozkładu t-studenta, gdy zastosowana zostanie formuła t-statystyki, ale nie jestem tego pewien). Powodem tego jest po prostu to, że rozkład statystyki t jest obliczany na podstawie rozkładu danych, które ją wygenerowały, więc jeśli masz inny podstawowy rozkład, to nie masz gwarancji, że masz taki sam rozkład dla statystyk pochodnych.

Akumulacja
źródło

Dlaczego statystyka T potrzebuje danych do normalnego rozkładu

Odpowiedzi: