Dyskutowałem z moim profesorem statystycznym na temat „normalnych rozkładów”. Uważam, że aby naprawdę uzyskać rozkład normalny, trzeba mieć średnią = mediana = tryb, wszystkie dane muszą być zawarte pod krzywą dzwonową i idealnie symetryczne wokół średniej. Dlatego technicznie praktycznie nie ma żadnych normalnych rozkładów w prawdziwych badaniach i powinniśmy nazwać je czymś innym, być może „prawie normalnym”.
Mówi, że jestem zbyt wybredna, a jeśli pochylenie / kurtoza są mniejsze niż 1,0, jest to rozkład normalny i zdejmowałem punkty na egzaminie. Zbiór danych to łączna liczba upadków / rok w losowej próbie 52 domów opieki, która jest losową próbą większej populacji. Jakiś wgląd?
Problem:
PYTANIE: 3. Obliczyć miary skośności i kurtozy dla tych danych. Dołącz histogram z krzywą normalną. Omów swoje ustalenia. Czy dane są zwykle dystrybuowane?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
za. Istnieje wiele trybów. Wyświetlana jest najmniejsza wartość
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Moja odpowiedź:
Dane są platykurtyczne i mają jedynie niewielkie dodatnie wypaczenie, i NIE jest to rozkład normalny, ponieważ średnia i mediana i tryb nie są równe, a dane nie są równomiernie rozmieszczone wokół średniej. W rzeczywistości praktycznie żadne dane nigdy nie są idealnym rozkładem normalnym, chociaż możemy omówić „w przybliżeniu rozkłady normalne”, takie jak wzrost, waga, temperatura lub długość dorosłego palca serdecznego w dużych grupach populacji.
Odpowiedź profesora:
Masz rację, że nie ma całkowicie normalnego rozkładu. Ale nie szukamy doskonałości. Musimy spojrzeć na dane oprócz histogramu i miary tendencji centralnej. Co statystyki skośności i kurtozy mówią o dystrybucji? Ponieważ oba są między wartościami krytycznymi -1 i +1, dane te są uważane za normalnie rozłożone.
źródło
Odpowiedzi:
Problem z dyskusją z profesorem dotyczy terminologii, nieporozumienie utrudnia przekazanie potencjalnie użytecznego pomysłu. W różnych miejscach oboje popełniacie błędy.
Pierwszą rzeczą do rozwiązania: ważne jest, aby jasno określić, czym jest dystrybucja .
Rozkład normalny jest specyficznym obiektem matematycznym, który można uznać za model dla nieskończonej populacji wartości. (Żadna skończona populacja nie może mieć ciągłego rozkładu).
Luźno to, co robi ten rozkład (po określeniu parametrów), określa (za pomocą wyrażenia algebraicznego) proporcję wartości populacji, która mieści się w danym przedziale na linii rzeczywistej. Nieco mniej luźno określa prawdopodobieństwo, że jedna wartość z tej populacji znajdzie się w danym przedziale.
Obserwowana próbka tak naprawdę nie ma normalnego rozkładu; próbka mogłaby (potencjalnie) zostać pobrana z rozkładu normalnego, gdyby taki istniał. Jeśli spojrzysz na empiryczny plik cdf próbki, jest on dyskretny. Jeśli binujesz go (jak na histogramie) próbka ma „rozkład częstotliwości”, ale nie są to normalne rozkłady. Rozkład może powiedzieć nam pewne rzeczy (w sensie probabilistycznym) na temat losowej próbki z populacji, a próbka może również powiedzieć nam kilka rzeczy na temat populacji.
Rozsądną interpretacją wyrażenia typu „próbka normalnie dystrybuowana” * jest „próbka losowa z populacji normalnie dystrybuowanej”.
* (Generalnie staram się nie mówić tego sam, z powodów, które mam nadzieję, że są tu wystarczająco jasne; zwykle udaje mi się ograniczyć do drugiego rodzaju wypowiedzi).
Po zdefiniowaniu terminów (choć wciąż nieco luźno), przyjrzyjmy się teraz szczegółowo pytaniu. Zajmę się konkretnymi częściami pytania.
Jest to z pewnością warunek normalnego rozkładu prawdopodobieństwa, choć nie jest to wymóg dla próbki pobranej z rozkładu normalnego; próbki mogą być asymetryczne, mogą różnić się od mediany i tak dalej. [Możemy jednak dowiedzieć się, jak daleko od siebie moglibyśmy się spodziewać, gdyby próba rzeczywiście pochodziła z normalnej populacji.]
Nie jestem pewien, co w tym sensie oznacza „zawarte w”.
Nie; mówisz tutaj o danych , a próbka z (zdecydowanie symetrycznej) populacji normalnej nie byłaby idealnie symetryczna.
I zgadzam się z zawarciem ale rozumowanie nie jest prawidłowa; nie wynika to z faktu, że dane nie są idealnie symetryczne (itp.); to fakt, że populacje same w sobie nie są całkowicie normalne .
Jeśli powiedziała to w ten sposób, to zdecydowanie się myli.
Skośność próbki może być znacznie bliższa zeru (przyjmując, że „mniej niż” oznacza w wartości bezwzględnej nie rzeczywistą wartość), a kurtoza nadmiaru próbki może być również znacznie bliższa 0 (mogą nawet przypadkowo lub konstrukcja, potencjalnie może być prawie dokładnie zerowa), a jednak rozkład, z którego została pobrana próbka, może być wyraźnie nienormalny.
Możemy pójść dalej - nawet gdybyśmy magicznie wiedzieli, że skośność populacji i kurtoza są dokładnie takie same jak u normalnych, to i tak samo nie powiedziałoby nam, że populacja była normalna, ani nawet coś zbliżonego do normalnego.
Rozkład liczby zliczeń nigdy nie jest normalny. Zliczenia są dyskretne i nieujemne, rozkłady normalne są ciągłe i obejmują całą linię rzeczywistą.
Ale naprawdę koncentrujemy się na niewłaściwym problemie. Modele prawdopodobieństwa są po prostu modelami . Nie mylmy naszych modeli z rzeczywistością .
Problemem nie jest „czy same dane są normalne?” (nie mogą być), ani nawet „czy populacja, z której sporządzono dane, jest normalna?” (prawie nigdy tak się nie stanie).
Bardziej użytecznym pytaniem do dyskusji jest „jak bardzo wpłynęłoby to na moje wnioskowanie, gdybym traktował populację jako normalnie rozmieszczoną?”
Odpowiedź na pytanie jest również o wiele trudniejsza i może wymagać znacznie więcej pracy niż spojrzenie na kilka prostych metod diagnostycznych.
Statystyki przykładowe, które pokazałeś, nie są szczególnie niespójne z normalnością (możesz zobaczyć statystyki takie lub „gorsze” nierzadko rzadko, jeśli masz losowe próbki tej wielkości z normalnych populacji), ale to nie oznacza, że rzeczywista populacja z którego została pobrana próbka, jest automatycznie „wystarczająco blisko” do normy do określonego celu. Ważne byłoby, aby wziąć pod uwagę cel (na jakie pytania odpowiadasz) i solidność zastosowanych do tego metod, a nawet wtedy możemy nie być pewni, że jest „wystarczająco dobry”; czasami lepiej jest po prostu nie zakładać, że nie mamy dobrego powodu, aby zakładać z góry (np. na podstawie doświadczeń z podobnymi zbiorami danych).
Dane - nawet dane pochodzące z normalnej populacji - nigdy nie mają dokładnie właściwości populacji; z samych tych liczb nie masz dobrych podstaw, aby stwierdzić, że populacja nie jest tutaj normalna.
Z drugiej strony nie mamy też żadnych uzasadnionych podstaw, by stwierdzić, że jest „wystarczająco blisko” do normalności - nawet nie rozważaliśmy celu przyjęcia normalności, więc nie wiemy, na jakie cechy dystrybucyjne może być wrażliwy.
Na przykład, gdybym miał dwie próbki do pomiaru, który był ograniczony, o którym wiedziałem, że nie będzie mocno dyskretny (nie tylko biorąc kilka odrębnych wartości) i rozsądnie zbliżony do symetrycznego, być może z przyjemnością użyję dwóch próbek test t przy niewielkiej próbie; jest średnio odporny do lekkich odchyleń od założeń (nieco poziom, nie tak mocny). Byłbym jednak znacznie ostrożniejszy, ponieważ na przykład przyczynowo zakładałem normalność przy testowaniu równości spreadu, na przykład, ponieważ najlepszy test przy tym założeniu jest dość wrażliwy na to założenie.
Jeśli tak naprawdę jest to kryterium, według którego decyduje się zastosować normalny model dystrybucji, to czasami prowadzi cię do dość kiepskich analiz.
Wartości tych statystyk dają nam pewne wskazówki na temat populacji, z której pobrano próbkę, ale to wcale nie to samo, co sugerowanie, że ich wartości są w jakikolwiek sposób „bezpiecznym przewodnikiem” przy wyborze analizy.
Teraz, aby rozwiązać problem leżący u podstaw jeszcze lepszej wersji takiego pytania, jakie miałeś:
Cały proces patrzenia na próbkę wyboru modelu jest obarczony problemami - zmienia to właściwości wszelkich późniejszych wyborów analizy w oparciu o to, co widziałeś! np. w teście hipotez, twoje poziomy istotności, wartości p i moc nie są tym, czym byś wybrał / obliczyłby je , ponieważ te obliczenia są oparte na analizie nieopartej na danych.
Patrz na przykład Gelman i Loken (2014), „ The Statistics Crisis in Science ”, American Scientist , tom 102, nr 6, str. 460 (DOI: 10.1511 / 2014.111.460), który omawia problemy z taką analizą zależną od danych.
źródło
Brakuje Ci sensu i prawdopodobnie jesteś także „trudny”, co nie jest doceniane w branży. Pokazuje ci zabawkowy przykład, aby nauczyć cię oceny normalności zestawu danych, czyli powiedzieć, czy zbiór danych pochodzi z rozkładu normalnego . Patrzenie na momenty dystrybucji jest jednym ze sposobów sprawdzenia normalności, np. Test Jarque Bera opiera się na takiej ocenie.
Tak, rozkład normalny jest idealnie symetryczny. Jeśli jednak narysujesz próbkę z prawdziwego rozkładu normalnego, najprawdopodobniej nie będzie ona idealnie symetryczna. To jest punkt, którego całkowicie brakuje. Możesz to bardzo łatwo przetestować samodzielnie. Po prostu wygeneruj próbkę z rozkładu Gaussa i sprawdź jej moment. Nigdy nie będą idealnie „normalne”, mimo że ich rozkład jest prawdziwy .
Oto głupi przykład w języku Python. Generuję 100 próbek ze 100 liczb losowych, a następnie uzyskuję ich środki i mediany. Drukuję pierwszą próbkę, aby pokazać, że średnia i mediana są różne, a następnie pokazuję histogram różnicy między średnią a medianą. Widać, że jest raczej wąski, ale różnica w zasadzie nigdy nie wynosi zero. Zauważ, że liczby naprawdę pochodzą z normalnego rozkładu .
kod:
wyjścia:
PS
To, czy przykład z twojego pytania należy uznać za normalny, czy nie, zależy od kontekstu. W kontekście tego, czego nauczano w klasie, mylisz się, ponieważ twój profesor chciał sprawdzić, czy znasz regułę testu kciuka, którą ci dała, a mianowicie, że przekrzywienie i nadmierna kurtoza muszą być w zakresie od 1 do 1 zasięg.
Osobiście nigdy nie stosowałem tej konkretnej zasady (nie mogę nazwać jej testem) i nawet nie wiedziałem, że istnieje. Najwyraźniej niektórzy ludzie w niektórych dziedzinach z niego korzystają. Gdyby podłączyć opisy zestawu danych do testu JB, odrzuciłoby to normalność. Dlatego nie należy się mylić, sugerując, że zestaw danych nie jest normalny, ale mylisz się w tym sensie, że nie zastosowałeś reguły, która była od ciebie oczekiwana na podstawie tego, czego nauczono w klasie.
Gdybym był tobą, uprzejmie podszedłbym do twojego profesora i wyjaśniłem się, a także pokazałem wyniki testu JB. Przyznaję, że na podstawie jej testu moja odpowiedź była oczywiście błędna. Jeśli spróbujesz spierać się z nią w sposób, w jaki tutaj się kłócisz, twoje szanse na odzyskanie punktu w teście są bardzo małe, ponieważ twoje rozumowanie jest słabe o mediany, środki i próbki, pokazuje to brak zrozumienia próbek w porównaniu z populacjami. Jeśli zmienisz melodię, będziesz miał skrzynkę.
źródło
Nauczyciel wyraźnie nie jest w swoim żywiole i prawdopodobnie nie powinien uczyć statystyki. Wydaje mi się, że gorzej jest uczyć czegoś złego niż w ogóle go nie uczyć.
Kwestie te można łatwo rozwiązać, jeśli rozróżnienie między „danymi” a „procesem, który wytworzył dane” zostanie wyraźniej określone. Dane są ukierunkowane na proces, w którym powstały dane. Rozkład normalny jest modelem tego procesu.
Nie ma sensu rozmawiać o tym, czy dane są zwykle dystrybuowane. Z jednego powodu dane są zawsze dyskretne. Z innego powodu rozkład normalny opisuje nieskończoność potencjalnie obserwowalnych wielkości, a nie skończony zbiór konkretnych obserwowanych wielkości.
Ponadto odpowiedź na pytanie „jest procesem, który wytworzył dane w normalnie rozproszonym procesie ”, również brzmi „nie” niezależnie od danych. Dwa proste powody: (i) wszelkie dokonywane przez nas pomiary są z konieczności dyskretne i są zaokrąglane do pewnego poziomu. (ii) idealna symetria, podobnie jak idealny okrąg, nie istnieje w obserwowalnej naturze. Zawsze są niedoskonałości.
W najlepszym przypadku odpowiedź na pytanie „co te dane mówią o normalności procesu generowania danych” można udzielić w następujący sposób: „dane te są zgodne z tym, czego moglibyśmy się spodziewać, gdyby dane rzeczywiście pochodziły z proces normalnie rozproszony ”. Ta odpowiedź poprawnie nie oznacza, że rozkład jest normalny.
Problemy te można bardzo łatwo zrozumieć za pomocą symulacji. Po prostu symuluj dane z normalnego rozkładu i porównaj je z istniejącymi danymi. Jeśli dane są zliczane (0,1,2,3, ...), to oczywiście normalny model jest błędny, ponieważ nie produkuje liczb takich jak 0,1,2,3, ...; zamiast tego generuje liczby z ułamkami dziesiętnymi, które trwają wiecznie (lub przynajmniej tak dalece, jak pozwala na to komputer). Taka symulacja powinna być pierwszą rzeczą, którą robisz, gdy uczysz się pytania o normalność. Następnie możesz bardziej poprawnie interpretować wykresy i statystyki podsumowujące.
źródło
Jestem inżynierem, więc w moim świecie statystyka stosowana jest tym, co widzę najbardziej, i uzyskuję najbardziej konkretną wartość. Jeśli zamierzasz pracować w zastosowaniach, musisz być solidnie ugruntowany w praktyce na teorii: niezależnie od tego, czy jest elegancki, czy nie, samolot musi latać, a nie upaść.
Kiedy zastanawiam się nad tym pytaniem, podchodzę do niego tak, jak zrobiło to wielu moich technicznych graczy, i myślę o „jak to wygląda w świecie rzeczywistym z obecnością hałasu”.
Drugą rzeczą, którą często robię, jest wykonanie symulacji, która pozwala mi omówić to pytanie.
Oto bardzo krótka eksploracja:
Daje to jako wynik:
Uwaga: uważaj na oś x, ponieważ jest ona skalowana w dzienniku, a nie w jednolitym.
Wiem, że średnia i mediana są dokładnie takie same. Kod mówi to. Realizacja empiryczna jest bardzo wrażliwa na wielkość próbki, a jeśli nie ma naprawdę nieskończonych próbek, to nigdy nie będą idealnie pasować do teorii.
Możesz pomyśleć o tym, czy niepewność w medianie obejmuje oszacowaną średnią, czy odwrotnie. Jeśli najlepsze oszacowanie średniej mieści się w 95% CI oszacowania dla mediany, dane nie mogą odróżnić. Dane mówią, że są te same w teorii. Jeśli uzyskasz więcej danych, zobacz, co mówi.
źródło
W statystykach medycznych komentujemy tylko kształty i pozorne rozkłady. Fakt, że żadna dyskretna próbka skończona nie może być normalna, jest nieistotny i pedantyczny. Oznaczałbym cię za to źle.
Jeśli dystrybucja wygląda „w przeważającej mierze” normalnie, nie mamy nic przeciwko określeniu jej jako normalnej. Kiedy opisuję rozkłady dla odbiorców niestatystycznych, czuję się swobodnie, nazywając coś w przybliżeniu normalnym, nawet gdy wiem, że rozkład normalny nie jest podstawowym modelem prawdopodobieństwa, mam wrażenie, że poparłbym tutaj twojego nauczyciela ... ale my nie mają histogramu ani zestawu danych do zweryfikowania.
Wskazówka: bardzo dokładnie przejrzałbym następujące kontrole:
źródło
Myślę, że ty i twój profesor rozmawiacie w innym kontekście. Równość średniej = mediana = mod jest cechą rozkładu teoretycznego i nie jest to jedyna cecha. Nie można powiedzieć, że jeśli w przypadku jakiejkolwiek dystrybucji powyżej nieruchomości, dystrybucja jest normalna. Rozkład T jest również symetryczny, ale nie jest normalny. Mówisz więc o teoretycznych właściwościach rozkładu normalnego, które zawsze mają zastosowanie do rozkładu normalnego.
Twój profesor mówi o dystrybucji przykładowych danych. Ma rację, nigdy nie dostaniesz danych w prawdziwym życiu, gdzie znajdziesz średnią = medianę = tryb. Wynika to po prostu z błędu próbkowania . Podobnie jest bardzo mało prawdopodobne, otrzymasz zerowy współczynnik skośności dla przykładowych danych i zero nadmiaru kurtozy. Twój profesor po prostu daje ci prostą regułę, aby uzyskać wyobrażenie o rozkładzie z przykładowych statystyk. Co ogólnie nie jest prawdą (bez uzyskiwania dalszych informacji).
źródło
Dla celów praktycznych podstawowe procesy, takie jak ten, są zwykle dokładnie aproksymowane przez normalne rozmieszczenie bez uniesienia brwi.
Jeśli jednak chcesz być pedantyczny, proces leżący u jego podstaw nie może być normalnie rozłożony, ponieważ nie może wytworzyć wartości ujemnych (liczba upadków nie może być ujemna). Nie zdziwiłbym się, gdyby był to przynajmniej rozkład bimodalny z drugim pikiem bliskim zera.
źródło