Czy „rozkład normalny” musi mieć średnią = medianę = tryb?

17

Dyskutowałem z moim profesorem statystycznym na temat „normalnych rozkładów”. Uważam, że aby naprawdę uzyskać rozkład normalny, trzeba mieć średnią = mediana = tryb, wszystkie dane muszą być zawarte pod krzywą dzwonową i idealnie symetryczne wokół średniej. Dlatego technicznie praktycznie nie ma żadnych normalnych rozkładów w prawdziwych badaniach i powinniśmy nazwać je czymś innym, być może „prawie normalnym”.

Mówi, że jestem zbyt wybredna, a jeśli pochylenie / kurtoza są mniejsze niż 1,0, jest to rozkład normalny i zdejmowałem punkty na egzaminie. Zbiór danych to łączna liczba upadków / rok w losowej próbie 52 domów opieki, która jest losową próbą większej populacji. Jakiś wgląd?

Problem:

PYTANIE: 3. Obliczyć miary skośności i kurtozy dla tych danych. Dołącz histogram z krzywą normalną. Omów swoje ustalenia. Czy dane są zwykle dystrybuowane?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

za. Istnieje wiele trybów. Wyświetlana jest najmniejsza wartość

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Moja odpowiedź:

Dane są platykurtyczne i mają jedynie niewielkie dodatnie wypaczenie, i NIE jest to rozkład normalny, ponieważ średnia i mediana i tryb nie są równe, a dane nie są równomiernie rozmieszczone wokół średniej. W rzeczywistości praktycznie żadne dane nigdy nie są idealnym rozkładem normalnym, chociaż możemy omówić „w przybliżeniu rozkłady normalne”, takie jak wzrost, waga, temperatura lub długość dorosłego palca serdecznego w dużych grupach populacji.

Odpowiedź profesora:

Masz rację, że nie ma całkowicie normalnego rozkładu. Ale nie szukamy doskonałości. Musimy spojrzeć na dane oprócz histogramu i miary tendencji centralnej. Co statystyki skośności i kurtozy mówią o dystrybucji? Ponieważ oba są między wartościami krytycznymi -1 i +1, dane te są uważane za normalnie rozłożone.

Ciasto Mleczne
źródło
3
Chciałbym poznać dokładne sformułowanie twojego profesora. Zasadniczo rozkład normalny ma średnią, medianę i mod identyczne (ale podobnie jak wiele innych rozkładów) i ma skośność 0 oraz (tak zwany nadmiar) kurtozę 0 (podobnie jak niektóre inne rozkłady). W najlepszym przypadku rozkład z (np.) Lekkim wypaczeniem lub kurtozą jest w przybliżeniu normalny. Zauważ, że prawie wszystkie rzeczywiste dane są w najlepszym razie przybliżone do nazwanych rozkładów w teoretycznej menażerii.
Nick Cox,
22
Nie zgadzam się z @ user2974951 W towarzystwie każdego dobrego tekstu wiem, że jestem całkowicie szczęśliwy myśląc, że rozkład normalny ma medianę i tryb. I dotyczy to w sposób ciągły dystrybucji, chociaż nie wątpię, że można zidentyfikować patologiczne kontrprzykłady.
Nick Cox,
4
Dzięki za konkretny szczegół, który pokazuje zalety po obu stronach, ale nie oceniam żadnego z was. Jednak zdecydowanie nie zgadzam się z pojęciem wartości krytycznych stosowanym przez Pana profesora, ponieważ granice dla skośności i kurtozy nie mają żadnej racji , poza tym , że można by je zastosować. W zależności od tego, co robisz z danymi, skośność < 1 może iść w parze z chęcią przekształcenia danych, a skośność > 1 może iść w parze z pozostawieniem danych, jakie są, i podobnie w przypadku kurtozy. ±1<1>1
Nick Cox,
6
Jeśli poważnie pozwolimy sobie na sztukę nitpicking, powinniśmy zauważyć, że nie ma żadnych spadków ujemnych i że spadki są dyskretne, więc rozkład de facto nie może być normalny. To sprawia, że ​​pytanie jest nieważne. Mówiąc poważniej, pytanie jest wyraźnie zmyślonym przykładem mającym na celu sprawdzenie konkretnych zasad. W rzeczywistości, w zależności od celu naszego badania, rozsądne może być przyjęcie normalnego rozkładu. W rzeczywistości nigdy się nie dowiemy, ponieważ mamy tylko próbkę.
Ioannis,
5
@ user2974951 Powinieneś rozważyć usunięcie pierwszego komentarza, ponieważ nie zgadzasz się z nim teraz. Do tej pory oszukało trzech czytelników, którzy zasygnalizowali, że się z tym zgadzają!
whuber

Odpowiedzi:

25

Problem z dyskusją z profesorem dotyczy terminologii, nieporozumienie utrudnia przekazanie potencjalnie użytecznego pomysłu. W różnych miejscach oboje popełniacie błędy.

Pierwszą rzeczą do rozwiązania: ważne jest, aby jasno określić, czym jest dystrybucja .

Rozkład normalny jest specyficznym obiektem matematycznym, który można uznać za model dla nieskończonej populacji wartości. (Żadna skończona populacja nie może mieć ciągłego rozkładu).

Luźno to, co robi ten rozkład (po określeniu parametrów), określa (za pomocą wyrażenia algebraicznego) proporcję wartości populacji, która mieści się w danym przedziale na linii rzeczywistej. Nieco mniej luźno określa prawdopodobieństwo, że jedna wartość z tej populacji znajdzie się w danym przedziale.

Obserwowana próbka tak naprawdę nie ma normalnego rozkładu; próbka mogłaby (potencjalnie) zostać pobrana z rozkładu normalnego, gdyby taki istniał. Jeśli spojrzysz na empiryczny plik cdf próbki, jest on dyskretny. Jeśli binujesz go (jak na histogramie) próbka ma „rozkład częstotliwości”, ale nie są to normalne rozkłady. Rozkład może powiedzieć nam pewne rzeczy (w sensie probabilistycznym) na temat losowej próbki z populacji, a próbka może również powiedzieć nam kilka rzeczy na temat populacji.

Rozsądną interpretacją wyrażenia typu „próbka normalnie dystrybuowana” * jest „próbka losowa z populacji normalnie dystrybuowanej”.

* (Generalnie staram się nie mówić tego sam, z powodów, które mam nadzieję, że są tu wystarczająco jasne; zwykle udaje mi się ograniczyć do drugiego rodzaju wypowiedzi).

Po zdefiniowaniu terminów (choć wciąż nieco luźno), przyjrzyjmy się teraz szczegółowo pytaniu. Zajmę się konkretnymi częściami pytania.

rozkład normalny trzeba mieć średnią = mediana = tryb

Jest to z pewnością warunek normalnego rozkładu prawdopodobieństwa, choć nie jest to wymóg dla próbki pobranej z rozkładu normalnego; próbki mogą być asymetryczne, mogą różnić się od mediany i tak dalej. [Możemy jednak dowiedzieć się, jak daleko od siebie moglibyśmy się spodziewać, gdyby próba rzeczywiście pochodziła z normalnej populacji.]

wszystkie dane muszą być zawarte pod krzywą dzwonową

Nie jestem pewien, co w tym sensie oznacza „zawarte w”.

i idealnie symetryczny wokół średniej.

Nie; mówisz tutaj o danych , a próbka z (zdecydowanie symetrycznej) populacji normalnej nie byłaby idealnie symetryczna.

Dlatego technicznie praktycznie nie ma żadnych normalnych rozkładów w rzeczywistych badaniach,

I zgadzam się z zawarciem ale rozumowanie nie jest prawidłowa; nie wynika to z faktu, że dane nie są idealnie symetryczne (itp.); to fakt, że populacje same w sobie nie są całkowicie normalne .

jeśli pochylenie / kurtoza są mniejsze niż 1,0, jest to rozkład normalny

Jeśli powiedziała to w ten sposób, to zdecydowanie się myli.

Skośność próbki może być znacznie bliższa zeru (przyjmując, że „mniej niż” oznacza w wartości bezwzględnej nie rzeczywistą wartość), a kurtoza nadmiaru próbki może być również znacznie bliższa 0 (mogą nawet przypadkowo lub konstrukcja, potencjalnie może być prawie dokładnie zerowa), a jednak rozkład, z którego została pobrana próbka, może być wyraźnie nienormalny.

Możemy pójść dalej - nawet gdybyśmy magicznie wiedzieli, że skośność populacji i kurtoza są dokładnie takie same jak u normalnych, to i tak samo nie powiedziałoby nam, że populacja była normalna, ani nawet coś zbliżonego do normalnego.

Zbiór danych to łączna liczba upadków / rok w losowej próbie 52 domów opieki, która jest losową próbą większej populacji.

Rozkład liczby zliczeń nigdy nie jest normalny. Zliczenia są dyskretne i nieujemne, rozkłady normalne są ciągłe i obejmują całą linię rzeczywistą.

Ale naprawdę koncentrujemy się na niewłaściwym problemie. Modele prawdopodobieństwa są po prostu modelami . Nie mylmy naszych modeli z rzeczywistością .

Problemem nie jest „czy same dane są normalne?” (nie mogą być), ani nawet „czy populacja, z której sporządzono dane, jest normalna?” (prawie nigdy tak się nie stanie).

Bardziej użytecznym pytaniem do dyskusji jest „jak bardzo wpłynęłoby to na moje wnioskowanie, gdybym traktował populację jako normalnie rozmieszczoną?”

Odpowiedź na pytanie jest również o wiele trudniejsza i może wymagać znacznie więcej pracy niż spojrzenie na kilka prostych metod diagnostycznych.

Statystyki przykładowe, które pokazałeś, nie są szczególnie niespójne z normalnością (możesz zobaczyć statystyki takie lub „gorsze” nierzadko rzadko, jeśli masz losowe próbki tej wielkości z normalnych populacji), ale to nie oznacza, że ​​rzeczywista populacja z którego została pobrana próbka, jest automatycznie „wystarczająco blisko” do normy do określonego celu. Ważne byłoby, aby wziąć pod uwagę cel (na jakie pytania odpowiadasz) i solidność zastosowanych do tego metod, a nawet wtedy możemy nie być pewni, że jest „wystarczająco dobry”; czasami lepiej jest po prostu nie zakładać, że nie mamy dobrego powodu, aby zakładać z góry (np. na podstawie doświadczeń z podobnymi zbiorami danych).

to NIE jest normalny rozkład

Dane - nawet dane pochodzące z normalnej populacji - nigdy nie mają dokładnie właściwości populacji; z samych tych liczb nie masz dobrych podstaw, aby stwierdzić, że populacja nie jest tutaj normalna.

Z drugiej strony nie mamy też żadnych uzasadnionych podstaw, by stwierdzić, że jest „wystarczająco blisko” do normalności - nawet nie rozważaliśmy celu przyjęcia normalności, więc nie wiemy, na jakie cechy dystrybucyjne może być wrażliwy.

Na przykład, gdybym miał dwie próbki do pomiaru, który był ograniczony, o którym wiedziałem, że nie będzie mocno dyskretny (nie tylko biorąc kilka odrębnych wartości) i rozsądnie zbliżony do symetrycznego, być może z przyjemnością użyję dwóch próbek test t przy niewielkiej próbie; jest średnio odporny do lekkich odchyleń od założeń (nieco poziom, nie tak mocny). Byłbym jednak znacznie ostrożniejszy, ponieważ na przykład przyczynowo zakładałem normalność przy testowaniu równości spreadu, na przykład, ponieważ najlepszy test przy tym założeniu jest dość wrażliwy na to założenie.

Ponieważ oba są między wartościami krytycznymi -1 i +1, dane te są uważane za normalnie rozłożone. ”

Jeśli tak naprawdę jest to kryterium, według którego decyduje się zastosować normalny model dystrybucji, to czasami prowadzi cię do dość kiepskich analiz.

Wartości tych statystyk dają nam pewne wskazówki na temat populacji, z której pobrano próbkę, ale to wcale nie to samo, co sugerowanie, że ich wartości są w jakikolwiek sposób „bezpiecznym przewodnikiem” przy wyborze analizy.


Teraz, aby rozwiązać problem leżący u podstaw jeszcze lepszej wersji takiego pytania, jakie miałeś:

Cały proces patrzenia na próbkę wyboru modelu jest obarczony problemami - zmienia to właściwości wszelkich późniejszych wyborów analizy w oparciu o to, co widziałeś! np. w teście hipotez, twoje poziomy istotności, wartości p i moc nie są tym, czym byś wybrał / obliczyłby je , ponieważ te obliczenia są oparte na analizie nieopartej na danych.

Patrz na przykład Gelman i Loken (2014), „ The Statistics Crisis in Science ”, American Scientist , tom 102, nr 6, str. 460 (DOI: 10.1511 / 2014.111.460), który omawia problemy z taką analizą zależną od danych.

Glen_b - Przywróć Monikę
źródło
Cześć Peter, przepraszam, nawet tam nie widziałem twojego postu.
Glen_b
Ta rozmowa została przeniesiona do czatu .
Glen_b
41

Brakuje Ci sensu i prawdopodobnie jesteś także „trudny”, co nie jest doceniane w branży. Pokazuje ci zabawkowy przykład, aby nauczyć cię oceny normalności zestawu danych, czyli powiedzieć, czy zbiór danych pochodzi z rozkładu normalnego . Patrzenie na momenty dystrybucji jest jednym ze sposobów sprawdzenia normalności, np. Test Jarque Bera opiera się na takiej ocenie.

Tak, rozkład normalny jest idealnie symetryczny. Jeśli jednak narysujesz próbkę z prawdziwego rozkładu normalnego, najprawdopodobniej nie będzie ona idealnie symetryczna. To jest punkt, którego całkowicie brakuje. Możesz to bardzo łatwo przetestować samodzielnie. Po prostu wygeneruj próbkę z rozkładu Gaussa i sprawdź jej moment. Nigdy nie będą idealnie „normalne”, mimo że ich rozkład jest prawdziwy .

Oto głupi przykład w języku Python. Generuję 100 próbek ze 100 liczb losowych, a następnie uzyskuję ich środki i mediany. Drukuję pierwszą próbkę, aby pokazać, że średnia i mediana są różne, a następnie pokazuję histogram różnicy między średnią a medianą. Widać, że jest raczej wąski, ale różnica w zasadzie nigdy nie wynosi zero. Zauważ, że liczby naprawdę pochodzą z normalnego rozkładu .

kod:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

wyjścia: wprowadź opis zdjęcia tutaj

PS

To, czy przykład z twojego pytania należy uznać za normalny, czy nie, zależy od kontekstu. W kontekście tego, czego nauczano w klasie, mylisz się, ponieważ twój profesor chciał sprawdzić, czy znasz regułę testu kciuka, którą ci dała, a mianowicie, że przekrzywienie i nadmierna kurtoza muszą być w zakresie od 1 do 1 zasięg.

Osobiście nigdy nie stosowałem tej konkretnej zasady (nie mogę nazwać jej testem) i nawet nie wiedziałem, że istnieje. Najwyraźniej niektórzy ludzie w niektórych dziedzinach z niego korzystają. Gdyby podłączyć opisy zestawu danych do testu JB, odrzuciłoby to normalność. Dlatego nie należy się mylić, sugerując, że zestaw danych nie jest normalny, ale mylisz się w tym sensie, że nie zastosowałeś reguły, która była od ciebie oczekiwana na podstawie tego, czego nauczono w klasie.

Gdybym był tobą, uprzejmie podszedłbym do twojego profesora i wyjaśniłem się, a także pokazałem wyniki testu JB. Przyznaję, że na podstawie jej testu moja odpowiedź była oczywiście błędna. Jeśli spróbujesz spierać się z nią w sposób, w jaki tutaj się kłócisz, twoje szanse na odzyskanie punktu w teście są bardzo małe, ponieważ twoje rozumowanie jest słabe o mediany, środki i próbki, pokazuje to brak zrozumienia próbek w porównaniu z populacjami. Jeśli zmienisz melodię, będziesz miał skrzynkę.

Aksakal
źródło
23
(+1) Dokładnie o to chodzi. Pomieszanie zmiennej losowej i próbki realizacji z tej zmiennej losowej.
Xi'an
15
t
Czy uczciwie byłoby powiedzieć, że gdyby twoje próbki były idealnie normalnie rozprowadzone, to jest ciąg dowodów, że próbki nie są losowe?
JimmyJames
@JimmyJames, 4 lata temu w Science pojawił się artykuł, w którym twierdzono, że 20-minutowa rozmowa z homoseksualistą może zmienić twoje uczucia wobec gejów. Okazuje się, że autorzy sporządzili dane z ankiety. Byli zbyt leniwi i doskonale generowali szum gaussowski, i tak zostali złapani - patrz Nieprawidłowości w LaCour (2014) autorstwa Broockmana i in.
Aksakal
@Aksakal Nie jestem pewien, czy to dokładnie to samo, o co pytam. W takim przypadku uważam, że argumentem w tej sprawie było to, że rzeczywiste dane nigdy nie są całkowicie normalne. Zaczynam od twojego stwierdzenia „Jeśli jednak narysujesz próbkę z prawdziwego rozkładu normalnego, ta próbka najprawdopodobniej nie będzie idealnie symetryczna”. Jeśli próbuję losowo z idealnego rozkładu normalnego, nie spodziewałbym się, że każdy kolejny punkt danych spadnie dokładnie tam, gdzie musi być wypełnienie idealnej krzywej normalnej. Wydaje mi się, że jest to nieprzypadkowy proces selekcji.
JimmyJames
6

Nauczyciel wyraźnie nie jest w swoim żywiole i prawdopodobnie nie powinien uczyć statystyki. Wydaje mi się, że gorzej jest uczyć czegoś złego niż w ogóle go nie uczyć.

Kwestie te można łatwo rozwiązać, jeśli rozróżnienie między „danymi” a „procesem, który wytworzył dane” zostanie wyraźniej określone. Dane są ukierunkowane na proces, w którym powstały dane. Rozkład normalny jest modelem tego procesu.

Nie ma sensu rozmawiać o tym, czy dane są zwykle dystrybuowane. Z jednego powodu dane są zawsze dyskretne. Z innego powodu rozkład normalny opisuje nieskończoność potencjalnie obserwowalnych wielkości, a nie skończony zbiór konkretnych obserwowanych wielkości.

Ponadto odpowiedź na pytanie „jest procesem, który wytworzył dane w normalnie rozproszonym procesie ”, również brzmi „nie” niezależnie od danych. Dwa proste powody: (i) wszelkie dokonywane przez nas pomiary są z konieczności dyskretne i są zaokrąglane do pewnego poziomu. (ii) idealna symetria, podobnie jak idealny okrąg, nie istnieje w obserwowalnej naturze. Zawsze są niedoskonałości.

W najlepszym przypadku odpowiedź na pytanie „co te dane mówią o normalności procesu generowania danych” można udzielić w następujący sposób: „dane te są zgodne z tym, czego moglibyśmy się spodziewać, gdyby dane rzeczywiście pochodziły z proces normalnie rozproszony ”. Ta odpowiedź poprawnie nie oznacza, że ​​rozkład jest normalny.

Problemy te można bardzo łatwo zrozumieć za pomocą symulacji. Po prostu symuluj dane z normalnego rozkładu i porównaj je z istniejącymi danymi. Jeśli dane są zliczane (0,1,2,3, ...), to oczywiście normalny model jest błędny, ponieważ nie produkuje liczb takich jak 0,1,2,3, ...; zamiast tego generuje liczby z ułamkami dziesiętnymi, które trwają wiecznie (lub przynajmniej tak dalece, jak pozwala na to komputer). Taka symulacja powinna być pierwszą rzeczą, którą robisz, gdy uczysz się pytania o normalność. Następnie możesz bardziej poprawnie interpretować wykresy i statystyki podsumowujące.

Peter Westfall
źródło
10
Nie obniżyłem twojej odpowiedzi, ale uważam, że oceniasz profesora na podstawie słów studenta. Jak prawdopodobne jest, że uczeń ma rację, a nauczyciel myli się? Czy nie jest bardziej prawdopodobne, że uczeń wprowadza w błąd swojego profesora i kontekst rozmowy?
Aksakal
Opierając się na moim doświadczeniu i słowach uczniów, powiedziałbym, że bardziej prawdopodobne jest, że nauczyciel się myli. Na całym świecie są nauczyciele z niewielkim formalnym wykształceniem, którzy prowadzą kursy, a nawet kursy stopni. Gdyby agencje akredytujące znały tylko prawdę!
Peter Westfall,
6
@ Possum-Pie, zgaduję, czego się od ciebie oczekuje. Prawdopodobnie jest to 101-letni kurs w statystykach, więc musisz spojrzeć na skośność i kurtozę. Jeśli nie są wystarczająco blisko 0 i 3, oznacza to, że to nie jest normalne. To wszystko. W rzeczywistości to właśnie robi test JB w bardziej formalny sposób. Celem ćwiczenia jest zapamiętanie, że Gaussian ma przekrzywienie 0 i kurtozę 3. Zamieniasz to głupie, ale konieczne ćwiczenie w dyskusję filozoficzną.
Aksakal
2
Komentarz nauczyciela „Ponieważ oba są między wartościami krytycznymi -1 i +1, dane te są uważane za normalnie rozłożone” zdecydowanie zdecydowanie pokazuje (i) brak zrozumienia lub (ii) chęć nauczania tego, co on / on wie mylić się. Nie sądzę, aby dyskusja filozoficzna kwestionowała gotowość nauczycieli lub metody pedagogiczne.
Peter Westfall,
3
Język „spójności” jest dobry. Ale jak zauważył Possum-Pie, nauczyciele mówią uczniom, że „na podstawie tego testu / diagnozy dane są normalne”, co jest błędne z kilku powodów. Nauczyciele (psychiczni i inni) muszą (i) odróżnić proces generowania danych od danych, (ii) powiedzieć uczniom, że normalne i inne modele są modelami procesu generowania danych, (iii) powiedzieć im, że rozkład normalny jest zawsze źle jako model, niezależnie od diagnostyki, i (iv) powiedz im, że celem ćwiczenia jest zdiagnozowanie stopnia nienormalności, a nie odpowiedź tak / nie. Następnie wyjaśnij, dlaczego to ma znaczenie.
Peter Westfall,
4

Jestem inżynierem, więc w moim świecie statystyka stosowana jest tym, co widzę najbardziej, i uzyskuję najbardziej konkretną wartość. Jeśli zamierzasz pracować w zastosowaniach, musisz być solidnie ugruntowany w praktyce na teorii: niezależnie od tego, czy jest elegancki, czy nie, samolot musi latać, a nie upaść.

Kiedy zastanawiam się nad tym pytaniem, podchodzę do niego tak, jak zrobiło to wielu moich technicznych graczy, i myślę o „jak to wygląda w świecie rzeczywistym z obecnością hałasu”.

Drugą rzeczą, którą często robię, jest wykonanie symulacji, która pozwala mi omówić to pytanie.

Oto bardzo krótka eksploracja:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Daje to jako wynik: wprowadź opis zdjęcia tutaj

Uwaga: uważaj na oś x, ponieważ jest ona skalowana w dzienniku, a nie w jednolitym.

Wiem, że średnia i mediana są dokładnie takie same. Kod mówi to. Realizacja empiryczna jest bardzo wrażliwa na wielkość próbki, a jeśli nie ma naprawdę nieskończonych próbek, to nigdy nie będą idealnie pasować do teorii.

Możesz pomyśleć o tym, czy niepewność w medianie obejmuje oszacowaną średnią, czy odwrotnie. Jeśli najlepsze oszacowanie średniej mieści się w 95% CI oszacowania dla mediany, dane nie mogą odróżnić. Dane mówią, że są te same w teorii. Jeśli uzyskasz więcej danych, zobacz, co mówi.

EngrStudent - Przywróć Monikę
źródło
1
Ciekawy wykres. Wydawało mi się, że Średnia byłaby na początku większa niż mediana, biorąc pod uwagę średnie odstające pościgi ... innymi słowy, czerwone słupki byłyby średnie, a zielone - mediany. czego mi brakuje?
Possum-Pie
1
@ Possum-Pie Pamiętaj, że wartości odstające mogą być w obu kierunkach ... normalny rozkład ma zarówno lewy ogon, jak i prawy ogon!
Silverfish,
2
@Will to dość standardowa implementacja boxplot.
Glen_b
1
@Glen_b Widziałem wiele podręczników, które nie uczą używania kropek do wartości odstających, więc mogę zrozumieć, że ktoś nie jest do nich przyzwyczajony. Ale według Hadleya kropki były tam, nawet gdy Tukey przedstawił swoją „schematyczną fabułę” w 1970 roku.
Silverfish,
1
Tak, wersja bez wartości odstających (bazująca tylko na 5-liczbowym podsumowaniu) byłaby w zasadzie wykresem zasięgu Mary Spear (1952). (Uwaga: w gazecie brakuje niektórych ważnych historycznych prekursorów fabuły, sprzed 1952 r.)
Glen_b
4

W statystykach medycznych komentujemy tylko kształty i pozorne rozkłady. Fakt, że żadna dyskretna próbka skończona nie może być normalna, jest nieistotny i pedantyczny. Oznaczałbym cię za to źle.

Jeśli dystrybucja wygląda „w przeważającej mierze” normalnie, nie mamy nic przeciwko określeniu jej jako normalnej. Kiedy opisuję rozkłady dla odbiorców niestatystycznych, czuję się swobodnie, nazywając coś w przybliżeniu normalnym, nawet gdy wiem, że rozkład normalny nie jest podstawowym modelem prawdopodobieństwa, mam wrażenie, że poparłbym tutaj twojego nauczyciela ... ale my nie mają histogramu ani zestawu danych do zweryfikowania.

Wskazówka: bardzo dokładnie przejrzałbym następujące kontrole:

  • kim są wartości odstające, ile i jakie są ich wartości?
  • Czy dane są bimodalne?
  • Czy dane wydają się mieć skośny kształt, aby jakaś transformacja (np. Log) lepiej kwantyfikowała „odległość” między obserwacjami?
  • Czy widoczne jest obcięcie lub zlepienie, tak że testy lub laboratoria nie potrafią wiarygodnie wykryć pewnego zakresu wartości?
AdamO
źródło
Wydaje się, że na polu o tak dużej matematyce ludzie byliby bardziej surowi między stwierdzeniem, że coś jest „normalnym rozkładem”, który ma pewne bardzo ścisłe konotacje, a stwierdzeniem, że jest to „prawie normalne”. Nigdy nie powiedziałbym, że 1.932 to 2., ale mogę powiedzieć, że jest prawie 2.
Possum-Pie
1
„Nieistotne i pedantyczne”? Poważnie? Zgadzam się z Possum-Pie. Nigdy też nie powiedziałbym, że 1.932 to to samo co 2.0. Powiedzenie, że dane są „normalne”, myli wszystko, od znaczenia rozkładu normalnego jako modelu dla procesu, który wytworzył dane, aż do faktycznego faktu, że normalne rozkłady nigdy nie modelują dokładnie naszych procesów. Wszystkich należy nauczyć, że kiedy uczą się normalnego rozkładu, aby nie składali niemądrych stwierdzeń.
Peter Westfall,
2
@PeterWestfall Myślę, że część tego problemu polega na tym, że „dane pochodzą z normalnej dystrybucji” prawie nigdy nie są dosłownie prawdziwe, a nawet gdyby były prawdziwe, prawdopodobnie niemożliwe byłoby udowodnienie ich jednoznacznie. Zatem, ponieważ zwrot ten prawie nigdy nie byłby dosłownie prawdziwy, ludzie zamiast tego użyją „dane są normalne” jako wygodnego skrótu, aby oznaczać „dane wydają się wystarczająco zbliżone do normalności ze względów praktycznych” lub „normalny rozkład jest dobry- wystarczający model dla naszego MZD ”.
Silverfish,
Po co więc uczyć, co jest nie tak, skoro tak łatwo jest uczyć tego, co jest dobre?
Peter Westfall,
3
@PeterW Punkt językowy to nie tylko nauczanie, ale sposób, w jaki wyrażenie jest używane (i ma być interpretowane) w życiu codziennym: „dane są normalne” prawie nigdy nie są używane w znaczeniu „wiem na pewno, że populacja, z której pobrano próbki danych, jest normalna ”, ponieważ prawie nigdy nie mogła tego oznaczać. Byłoby lepiej, gdyby ludzie powiedzieli „dane wydają się normalne”, a nawet „dane wyglądają normalnie ” (tj. Wydają się wystarczająco zbliżone do normalnych, abyśmy nie dbali o odchylenie od normalności), ale szczególnie w zastosowanym otoczeniu ludzie często mówią rzeczy takie jak te.
Silverfish,
2

Myślę, że ty i twój profesor rozmawiacie w innym kontekście. Równość średniej = mediana = mod jest cechą rozkładu teoretycznego i nie jest to jedyna cecha. Nie można powiedzieć, że jeśli w przypadku jakiejkolwiek dystrybucji powyżej nieruchomości, dystrybucja jest normalna. Rozkład T jest również symetryczny, ale nie jest normalny. Mówisz więc o teoretycznych właściwościach rozkładu normalnego, które zawsze mają zastosowanie do rozkładu normalnego.

Twój profesor mówi o dystrybucji przykładowych danych. Ma rację, nigdy nie dostaniesz danych w prawdziwym życiu, gdzie znajdziesz średnią = medianę = tryb. Wynika to po prostu z błędu próbkowania . Podobnie jest bardzo mało prawdopodobne, otrzymasz zerowy współczynnik skośności dla przykładowych danych i zero nadmiaru kurtozy. Twój profesor po prostu daje ci prostą regułę, aby uzyskać wyobrażenie o rozkładzie z przykładowych statystyk. Co ogólnie nie jest prawdą (bez uzyskiwania dalszych informacji).

Neeraj
źródło
3
Mówi się, że profesor jest kobietą.
Nick Cox,
Dlaczego nie dostajesz średniej = mediana = tryb jest głównie dlatego, że wiele dystrybucji jest naprawdę wypaczonych! (Ściśle mówiąc, tryb średni = mediana = jest również możliwy przy wypaczonych rozkładach, pomimo tego, co mówi wiele podręczników.)
Nick Cox,
1
Nie zgadzam się z tym, że brak równości średniej / mediany / trybu = błąd próbkowania. Załóżmy, że losowo wybierano 52 domy opieki dla wskaźników upadku. Domy 27, 34 i 52 mają przewlekły niedobór personelu i zawsze mają ponadprzeciętną liczbę upadków. Te domy popychają w kierunku ogona i nie są spowodowane błędem próbkowania.
Possum-Pie
1
@Possum Pie Dane są tutaj drugorzędne, ale podajesz różne sygnały w różnych miejscach. Mówisz tutaj o kilku domach opieki - ale w swoim pytaniu mówisz „w domu opieki”. Niejasność nawet przypadkowych szczegółów nie pomaga.
Nick Cox,
@Nick Cox Przepraszamy, wyjaśniłem to. Liczba upadków / rok w próbie 52 domów opieki
Possum-Pie
1

Dla celów praktycznych podstawowe procesy, takie jak ten, są zwykle dokładnie aproksymowane przez normalne rozmieszczenie bez uniesienia brwi.

Jeśli jednak chcesz być pedantyczny, proces leżący u jego podstaw nie może być normalnie rozłożony, ponieważ nie może wytworzyć wartości ujemnych (liczba upadków nie może być ujemna). Nie zdziwiłbym się, gdyby był to przynajmniej rozkład bimodalny z drugim pikiem bliskim zera.

Honza Brabec
źródło
Jest bimodalny z trybami przy 4 upadkach i 13 upadkach. Nie zgłoszono żadnych upadków zerowych.
Possum-Pie