Dlaczego statystyka T potrzebuje danych do normalnego rozkładu

11

Patrzyłem na ten zeszyt i zastanawia mnie to stwierdzenie:

Kiedy mówimy o normalności, mamy na myśli, że dane powinny wyglądać jak rozkład normalny. Jest to ważne, ponieważ polega na tym kilka testów statystycznych (np. Statystyki t).

Nie rozumiem, dlaczego statystyka T potrzebuje danych do normalnego rozkładu.

Rzeczywiście Wikipedia mówi to samo:

Rozkład t-Studenta (lub po prostu rozkład t) to dowolny członek rodziny ciągłych rozkładów prawdopodobieństwa, który powstaje przy szacowaniu średniej populacji normalnie rozłożonej

Nie rozumiem jednak, dlaczego to założenie jest konieczne.

Nic z jego formuły nie wskazuje mi, że dane muszą mieć normalny rozkład:

wprowadź opis zdjęcia tutaj

Spojrzałem trochę na jego definicję, ale nie rozumiem, dlaczego warunek jest konieczny.

oktawski
źródło

Odpowiedzi:

17

Wymagane informacje znajdują się w sekcji „Charakterystyka” na stronie Wiki . -Dystrybucja ze stopniami swobody można zdefiniować jako rozkładu zmiennej losowej w taki sposób, gdzie to rozkładu normalnego zmienna losowa, a jest zmienną losową o stopniach swobody . Ponadto i muszą być niezależne. Biorąc pod uwagę dowolne i zgodne z powyższą definicją, możesz następnie uzyskać losową zmienną, która matνT

T=ZV/ν,
ZVχ2νZVZVt dystrybucja.

Teraz załóżmy, rozpowszechniany jest zgodnie z rozkładem . Niech ma średnią i wariancję . Niech będzie średnią próbną, a będzie wariancją próbkową. Następnie przyjrzymy się formułom:X1,X2,,XnFFμσ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Jeśli oznacza rozkład normalny, to , a zatem . Ponadto według Twierdzenia Cochrana . Wreszcie zastosowaniu twierdzenia Basu w , a są niezależne. Oznacza to, że uzyskana statystyka ma rozkład z stopniami swobody.FX¯N(μ,σ2/n)X¯μσ/nN(0,1)(n1)S2σ2χn12X¯S2tn1

Jeśli pierwotny rozkład danych nie był normalny, wówczas dokładny rozkład licznika i mianownika nie będzie odpowiednio standardowy normalny i , a zatem uzyskane statystyki nie będą miały rozkładu .Fχ2t

Greenparker
źródło
3
Zawsze interesowało mnie, jak bardzo technologia matematyczna wchodzi w te fundamentalne wyniki w statystyce matematycznej.
Matthew Drury,
3
Dobry post Nie musimy jednak przywoływać tych wielkich twierdzeń, aby udowodnić niezależność między i , a także . Zobacz pierwszą odpowiedź tego postu. Sχ2X¯Sχ2
Zhanxiong,
2

Myślę, że może być pewne zamieszanie między statystyką i jej formułą, a rozkładem i jej formułą. Możesz zastosować formułę statystyki t do dowolnego zestawu danych i uzyskać „statystykę t”, ale ta statystyka nie będzie dystrybuowana zgodnie z rozkładem t-ucznia, chyba że dane pochodzą z rozkładu normalnego (a przynajmniej nie będą gwarantuję, że tak; przypuszczam, że niestandardowe rozkłady nie wytworzą rozkładu t-studenta, gdy zastosowana zostanie formuła t-statystyki, ale nie jestem tego pewien). Powodem tego jest po prostu to, że rozkład statystyki t jest obliczany na podstawie rozkładu danych, które ją wygenerowały, więc jeśli masz inny podstawowy rozkład, to nie masz gwarancji, że masz taki sam rozkład dla statystyk pochodnych.

Akumulacja
źródło