Dlaczego rozkład t staje się bardziej normalny wraz ze wzrostem wielkości próbki?

19

Zgodnie z Wikipedią rozumiem, że rozkład t jest rozkładem próbkowania wartości t, gdy próbki są obserwacjami z populacji normalnie rozmieszczonej. Jednak nie rozumiem intuicyjnie, dlaczego powoduje to zmianę rozkładu t-kształtnego z gruboogoniastego na prawie całkowicie normalny.

Rozumiem, że jeśli pobierasz próbki z normalnego rozkładu, to jeśli weźmiesz dużą próbkę, będzie ona podobna do tego rozkładu, ale nie rozumiem, dlaczego zaczyna się od kształtu tłuszczu.

user1205901 - Przywróć Monikę
źródło

Odpowiedzi:

22

Spróbuję podać intuicyjne wyjaśnienie.

Statystyka t * ma licznik i mianownik. Na przykład statystyka w teście t dla jednej próbki wynosi

x¯μ0s/n

* (jest ich kilka, ale mam nadzieję, że ta dyskusja powinna być na tyle ogólna, by objąć te, o które pytasz)

Zgodnie z założeniami licznik ma rozkład normalny ze średnią 0 i pewnym nieznanym odchyleniem standardowym.

Zgodnie z tym samym zestawem założeń mianownik jest oszacowaniem odchylenia standardowego rozkładu licznika (błąd standardowy statystyki na liczniku). Jest niezależny od licznika. Jego kwadrat jest losową zmienną chi-kwadrat podzieloną przez stopnie swobody (które są również df rozkładu t) razy .σnumerator

Kiedy stopnie swobody są małe, mianownik ma tendencję do dość prostego pochylania. Ma wysoką szansę na bycie mniejszym niż średnia i stosunkowo dużą szansę na bycie dość małym. Jednocześnie ma również szansę być znacznie, znacznie większy niż jego średnia.

Przy założeniu normalności licznik i mianownik są niezależne. Jeśli więc losujemy losowo z rozkładu tej statystyki t, mamy normalną liczbę losową podzieloną przez drugą losowo * wybraną wartość z rozkładu pochylenia w prawo, który wynosi średnio około 1.

* bez względu na zwykły termin

Ponieważ jest to na mianowniku, małe wartości w rozkładzie mianownika dają bardzo duże wartości t. Skośne przesunięcie w mianowniku powoduje, że statystyka t jest ciężka. Prawy ogon rozkładu, gdy znajduje się w mianowniku, powoduje, że rozkład t jest ostrzejszy niż pik normalny z tym samym odchyleniem standardowym jak t .

Jednakże, gdy stopnie swobody stają się duże, rozkład staje się znacznie bardziej normalny i znacznie bardziej „ciasny” wokół jego średniej.

wprowadź opis zdjęcia tutaj

Jako taki, wpływ dzielenia przez mianownik na kształt rozkładu licznika zmniejsza się wraz ze wzrostem stopni swobody.

W końcu - jak mogłoby się nam zdarzyć twierdzenie Słuckiego - efekt mianownika staje się bardziej podobny do dzielenia przez stałą, a rozkład statystyki t jest bardzo zbliżony do normy.


Rozważany w kategoriach wzajemności mianownika

whuber zasugerował w komentarzach, że lepiej byłoby spojrzeć na odwrotność mianownika. Oznacza to, że moglibyśmy zapisać nasze statystyki t jako licznik (normalny) razy odwrotność mianownika (prawe pochylenie).

Na przykład powyższa statystyka dla jednej próby powyżej wyglądałaby następująco:

n(x¯-μ0)1/s

Xjaσx

n(x¯-μ0)/σxσx/s

Pierwszy termin jest standardowym normalnym. Drugi element (pierwiastek kwadratowy skalowanej zmiennej losowej odwrotnej chi-kwadrat) następnie skaluje tę normalną normę o wartości, które są albo większe, albo mniejsze niż 1, „rozkładając ją”.

Przy założeniu normalności dwa terminy w produkcie są niezależne. Jeśli więc losujemy losowo z rozkładu tej statystyki t, otrzymujemy normalną liczbę losową (pierwszy składnik w produkcie) razy drugą losowo wybraną wartość (bez względu na normalny termin) z rozkładu o przesunięciu w prawo, który jest „ zazwyczaj „około 1”.

Gdy df są duże, wartość jest na ogół bardzo bliska 1, ale gdy df są małe, jest dość wypaczone, a spread jest duży, a duży prawy ogon tego współczynnika skalowania sprawia, że ​​ogon jest dość gruby:

wprowadź opis zdjęcia tutaj

Glen_b - Przywróć Monikę
źródło
Dzięki! To wiele wyjaśniło, ale nadal byłem trochę niepewny co do tego, że „Jego kwadrat jest losową zmienną chi-kwadrat podzieloną przez stopnie swobody (które są również df rozkładu t) razy [odchylenie standardowe] licznika „. Czy wspomniałeś o tym tylko dlatego, że warto wiedzieć, czy może ma to bezpośrednie znaczenie dla odpowiedzi na moje pytanie? Rozumiem, że jest to rozkład mianownika, a nie rozkład kwadratu mianownika, który jest przedstawiony na twojej figurze.
user1205901 - Przywróć Monikę
2
Rozkład statystyki byłby cięższy niż zwykle, nawet jeśli nie byłby konkretnie pierwiastkiem kwadratowym chi-kwadrat na swoim df; w tym sensie nie zmieniłoby bezpośrednio odpowiedzi, by ją pominąć. Ale przynajmniej służy to jako wyjaśnienie, skąd pochodzą skalowane rozkłady chi na diagramie.
Glen_b
3
Myślę, że nieco bardziej pouczające byłoby przeprowadzenie tej analizy w oparciu o odwrotność odchylenia standardowego próbki. To, w połączeniu z argumentem, że próbka SD jest niezależna od średniej próbki (kluczowy pomysł, który skorzystałby z nieco większego nacisku i wyjaśnienia, IMHO), pomogłoby ludziom zobaczyć, że podział próbki średniej przez próbkę SD musi rozłożyć, co inaczej byłby rozkład normalny. (To oczywiście był
cel
1
@ whuber Dodałem sekcję omawiającą ją w kategoriach wzajemności, ale zachowałem również oryginalną dyskusję (wydaje mi się, że jest bardziej bezpośrednia, ale doceniam, że wiele osób może czerpać z niej więcej w kategoriach wzajemności) . Dodam też trochę o niezależności
Glen_b
1
s/nσ/ns/σσ/sσ
8

@Glen_b dał ci intuicję, dlaczego statystyka t wygląda bardziej normalnie wraz ze wzrostem wielkości próby. Teraz dam ci nieco bardziej techniczne wyjaśnienie przypadku, gdy masz już rozkład statystyki.

n1n

(1+x2n1)n/2n1B(n12,12).

Można to pokazać

1n1B(n12,12)12π,

i

(1+x2n1)n/2exp(x2/2),

n

Kruger
źródło
2
Konwergencja plików PDF wydaje się niewiele mówić. Na przykład możesz się wmieszać1/n dystrybucji z PDF proporcjonalnym do (1+(x/n)2))-1 z każdym tndystrybucja i wciąż dochodzi do tego samego ograniczającego pliku PDF, ale przez cały czas dystrybucje w sekwencji stawałyby się grubsze . Możliwość takiego subtelnego zachowania sprawia, że ​​argumenty oparte na limitach plików PDF są mniej satysfakcjonujące. Poza tym, czy pytanie tak naprawdę nie dotyczy małych stopni swobody? Chce wiedzieć, dlaczego sekwencja „zaczyna się od kształtu grubego ogona”.
whuber
2
@whuber Odpowiedź jest prosta: istnieje -n dzięki mocy ogony stają się lżejsze nwzrasta. Musimy się tylko martwić o omawiany przypadek, a nie o inne hipotetyczne przypadki, w których mogą się zdarzyć dziwne rzeczy.
Kruger,
2

Chciałem tylko podzielić się czymś, co pomogło mojej intuicji jako początkującemu (choć jest mniej rygorystyczne niż inne odpowiedzi).

Gdyby Z,Z1,...,Zn oznaczają standardowe RV, a następnie następujące RV,

ZZ12)+...+Zn2)n

ma rozkład t z n stopnie swobody.

Tak jak n robi się naprawdę duży, korzystając z prawa wielkich liczb widzimy, że mianownik idzie do 1. Więc zostałeśZ co jest standardową normą, dlatego rozkład t wygląda normalnie jak n robi się duży.

Aby rozwinąć ... zauważ to mi[Z2)]=1co mówi, że oczekiwana wartość RV chi kwadrat jest równa jeden. Ułamek w pierwiastku kwadratowym to tylko średnia z próbyn iid Zja2)RV. Próbka oznacza jakon staje się super duży będzie równa oczekiwanej wartości tylko jednego z Zja2)który jest jeden.

Tak jak n robi się naprawdę duży, z którego właśnie zostałeś Z1=Z

HJ_beginner
źródło