Rozkład normalny i przekształcenia monotoniczne

9

Słyszałem, że wiele ilości występujących w przyrodzie jest zwykle dystrybuowanych. Jest to zazwyczaj uzasadnione przy użyciu centralnego twierdzenia o limicie, które mówi, że gdy uśrednisz dużą liczbę zmiennych losowych iid, otrzymasz rozkład normalny. Na przykład cecha, która jest określana przez efekt addytywny dużej liczby genów, może być w przybliżeniu normalnie rozłożona, ponieważ wartości genów mogą zachowywać się mniej więcej tak jak zmienne losowe.

To, co mnie dezorientuje, to fakt, że właściwość normalnego rozkładu nie jest oczywiście niezmienna w transformacjach monotonicznych. Tak więc, jeśli istnieją dwa sposoby pomiaru czegoś, co jest powiązane transformacją monotoniczną, jest mało prawdopodobne, aby obie były normalnie rozłożone (chyba że ta transformacja monotoniczna jest liniowa). Na przykład, możemy mierzyć rozmiary kropel deszczu według średnicy, powierzchni lub objętości. Zakładając podobne kształty dla wszystkich kropel deszczu, pole powierzchni jest proporcjonalne do kwadratu średnicy, a objętość jest proporcjonalna do sześcianu średnicy. Tak więc wszystkie te sposoby pomiaru nie mogą być normalnie rozłożone.

Moje pytanie brzmi zatem, czy określony sposób skalowania (tj. Szczególny wybór transformacji monotonicznej), w którym rozkład staje się normalny, musi mieć znaczenie fizyczne. Na przykład, czy wysokości powinny być normalnie rozkładane, czy kwadrat wysokości, logarytm wysokości, czy pierwiastek kwadratowy wysokości? Czy istnieje sposób udzielenia odpowiedzi na to pytanie poprzez zrozumienie procesów wpływających na wysokość?

Vipul
źródło
Jak zawsze to rozumiałem, centralne twierdzenie graniczne nie postuluje czegoś o uśrednieniu dużej liczby zmiennych losowych iid. Stwierdza się raczej, że podczas pobierania próbek, rozkład średnich staje się normalny (niezależnie od rozkładu leżącego u podstaw tego, z czego pobiera się próbki). Zastanawiam się więc, czy ma miejsce poprzednik twojego pytania.
Henrik
Ale jeśli średnia próbkowania staje się normalna niezależnie od rozkładu rozkładu leżącego u podstaw, to nie oznacza to, że powiedzenie „uśrednianie dużej liczby zmiennych losowych iid” daje nam rozkład normalny. Wydają mi się równoważnymi stwierdzeniami.
Nie w moich oczach (ale chciałbym być przekonany inaczej). W jednym przypadku (tym, o którym myślę, że ma na myśli CLT) pobierasz próbki z jednej dystrybucji. Ich środki są zwykle dystrybuowane. To, co rozumiem z pytania i cytatu „średnio duża liczba zmiennych losowych iid” jest różne: poszczególne instancje z różnych zmiennych losowych iid określają (lub tworzą) cechę. Zatem nie ma uśredniania (tj. Obliczania średniej) z pojedynczego rozkładu, a zatem nie ma zastosowania CLT. Myślę, że odpowiedzi mbq wskazują na ten sam problem.
Henrik
1
Cóż, rozkład nie musi być identyczny, jeśli pewne warunki się utrzymują. Zobacz: en.wikipedia.org/wiki/…
1
@Henrik Czy jest jakaś znacząca różnica pomiędzy pojedynczą próbką z każdej z N niezależnych i identycznie rozmieszczonych RV i N niezależnych pomiarów pojedynczej RV?
walkytalky

Odpowiedzi:

5

Bardzo dobre pytanie. Wydaje mi się, że odpowiedź zależy od tego, czy potrafisz zidentyfikować proces leżący u podstaw danego pomiaru. Jeśli na przykład masz dowody, że wysokość jest liniową kombinacją kilku czynników (np. Wzrostu rodziców, wzrostu dziadków itp.), Byłoby naturalne założyć, że wysokość jest zwykle rozkładana. Z drugiej strony, jeśli masz dowody, a może nawet teorię, że log wzrostu jest liniową kombinacją kilku zmiennych (np. Wysokości rodziców logów, logów wysokości dziadków itp.), Wtedy log wysokości będzie normalnie rozkładany.

W większości sytuacji nie znamy procesu leżącego u podstaw pomiaru zainteresowania. W ten sposób możemy zrobić jedną z kilku rzeczy:

(a) Jeśli empiryczny rozkład wysokości wygląda normalnie, do dalszej analizy używamy normalnej gęstości, która domyślnie zakłada, że ​​wysokość jest liniową kombinacją kilku zmiennych.

(b) Jeśli rozkład empiryczny nie wygląda normalnie, możemy spróbować transformacji zgodnie z sugestią mbq (np. log (wzrost)). W tym przypadku domyślnie zakładamy, że transformowana zmienna (tj. Log (wysokość)) jest liniową kombinacją kilku zmiennych.

(c) Jeśli (a) lub (b) nie pomogą, to musimy porzucić zalety, które daje nam CLT i założenie normalności, i modelować zmienną przy użyciu innego rozkładu.

Społeczność
źródło
5

Przeskalowanie określonej zmiennej powinno, o ile to możliwe, odnosić się do pewnej zrozumiałej skali, ponieważ pomaga to w interpretacji modelu wynikowego. Wynikająca z tego transformacja nie musi jednak absolutnie mieć fizycznego znaczenia. Zasadniczo musisz zaangażować się w kompromis między naruszeniem założenia normalności a interpretowalnością swojego modelu. To, co lubię robić w takich sytuacjach, to oryginalne dane, dane przekształcane w sensowny sposób, a dane przekształcane w najbardziej normalny sposób. Jeśli dane przekształcone w sposób, który ma sens, są takie same jak wyniki, gdy dane są przekształcone w sposób, który czyni je najbardziej normalnym, Zgłaszam to w sposób, który można zinterpretować za pomocą dodatkowej notatki, że wyniki są takie same w przypadku optymalnie transformowanych (i / lub nietransformowanych) danych. Kiedy nietransformowane dane zachowują się wyjątkowo słabo, przeprowadzam analizy z transformowanymi danymi, ale staram się raportować wyniki w nietransformowanych jednostkach.

Wydaje mi się również, że masz błędne przekonanie w swoim stwierdzeniu, że „ilości występujące w naturze są zwykle rozdzielane”. Dotyczy to tylko przypadków, w których wartość jest „określana przez efekt addytywny dużej liczby” niezależnych czynników. Oznacza to, że środki i sumy są zwykle rozkładane niezależnie od leżącego u ich podstaw rozkładu, z którego nie należy oczekiwać, że poszczególne wartości będą normalnie rozłożone. Jak na przykład, pojedyncze losowania z rozkładu dwumianowego nie wyglądają normalnie, ale rozkład sumy 30 losowań z rozkładu dwumianowego wygląda raczej normalnie.

russellpierce
źródło
5

Muszę przyznać, że tak naprawdę nie rozumiem twojego pytania:

  • twój przykład kropli deszczu nie jest zbyt satysfakcjonujący, ponieważ nie ilustruje to faktu, że zachowanie Gaussa pochodzi ze „średniej dużej liczby zmiennych losowych iid”.

  • jeśli ilość X interesuje Cię średnia Y1++YN.N. który oscyluje wokół średniej w sposób gaussowski, można się również spodziewać fa(Y1)++fa(YN.)N. ma gaussowskie zachowanie.

  • jeśli fluktuacja X wokół jego średniej są w przybliżeniu gaussowskie i małe, a więc i wahania fa(X) wokół jego średniej (według ekspansji Taylora)

  • czy możesz przytoczyć kilka prawdziwych przykładów (prawdziwego) zachowania Gaussa pochodzącego z uśredniania: nie jest to zbyt częste! Zachowanie Gaussa jest często wykorzystywane w statystykach jako pierwsze przybliżone przybliżenie, ponieważ obliczenia są bardzo wykonalne. Ponieważ fizycy używają aproksymacji harmonicznej, statystycy używają aproksymacji Gaussa.

Alekk
źródło
zasada maksymalnej entropii jest również kolejnym powodem, dla którego stosuje się rozkład Gaussa. Na przykład, jakie są dobre powody stosowania błędów Gaussa w modelu liniowym, z wyjątkiem wykonalności?
Alekk
5

Vipul, nie jesteś całkowicie precyzyjny w swoim pytaniu.

Jest to zazwyczaj uzasadnione przy użyciu centralnego twierdzenia o limicie, które mówi, że gdy uśrednisz dużą liczbę zmiennych losowych iid, otrzymasz rozkład normalny.

Nie jestem do końca pewien, czy tak mówisz, ale pamiętaj, że krople deszczu w twoim przykładzie nie są zmiennymi losowymi. Średnia obliczona przez próbkowanie pewnej liczby tych kropel deszczu jest zmiennymi losowymi, a ponieważ średnie są obliczane przy użyciu wystarczająco dużej wielkości próby, rozkład tej średniej próbki jest normalny.

Prawo wielkich liczb mówi, że wartość tej średniej próby jest zbieżna ze średnią wartością populacji (silna lub słaba w zależności od rodzaju zbieżności).

CLT mówi, że średnia próbki, nazwij ją XM (n), która jest zmienną losową, ma rozkład, powiedzmy G (n). Gdy n zbliża się do nieskończoności, rozkład ten jest rozkładem normalnym. CLT polega na konwergencji w dystrybucji , a nie na podstawowej koncepcji.

Rysowane przez ciebie obserwacje (średnica, powierzchnia, objętość) wcale nie muszą być normalne. Prawdopodobnie nie będą, jeśli je wykreślisz. Ale średnia z próby z wszystkich trzech obserwacji będzie miała rozkład normalny. Objętość nie będzie sześcianem średnicy, a obszar nie będzie kwadratem średnicy. Kwadrat sum nie będzie sumą kwadratów, chyba że masz dziwne szczęście.

Baltimark
źródło
4

Po prostu CLT (ani żadne inne twierdzenie) nie stwierdza, że ​​każda ilość we wszechświecie jest normalnie rozłożona. Rzeczywiście, statystycy często używają transformacji monotonicznych w celu poprawy normalności, aby mogli użyć swoich ulubionych narzędzi.


źródło
4

Myślę, że źle zrozumiałeś (połowę) statystyki wykorzystania rozkładu normalnego, ale naprawdę podoba mi się twoje pytanie.

Nie sądzę, że dobrym pomysłem jest przyjmowanie systematycznej normalności i przyznaję, że kiedyś to się dzieje (być może dlatego, że rozkład normalny jest możliwy do przełożenia, unimodalny ...) bez weryfikacji. Dlatego Twoja uwaga na temat monotonicznej mapy jest doskonała!

Jednak potężne wykorzystanie normalności pojawia się, gdy tworzysz sobie nowe statystyki, takie jak te, które pojawiają się, gdy zastosujesz empiryczną przeciwną część oczekiwań: średnią empiryczną . Stąd średnia empiryczna i bardziej ogólnie wygładzenie sprawia, że ​​normalność pojawia się wszędzie ...

Robin Girard
źródło
2

Zarówno zmienna losowa, jak i wiele jej przekształceń może być w przybliżeniu normalna; w rzeczywistości, jeśli wariancja jest niewielka w porównaniu do średniej, może się zdarzyć, że bardzo szeroki zakres transformacji wygląda całkiem normalnie.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 histogramy pokazujące prawie normalność

( kliknij, aby zobaczyć większą wersję )

Glen_b - Przywróć Monikę
źródło