Co to jest normalność?

33

W wielu różnych metodach statystycznych istnieje „założenie normalności”. Co to jest „normalność” i skąd mam wiedzieć, czy istnieje normalność?

distributions normality-assumption Lew
źródło

2

czy próbowałeś najpierw google / wikipedia? en.wikipedia.org/wiki/Normal_distribution

robin girard

29

Założenie o normalności jest tylko przypuszczeniem, że podstawowa losowa zmienna będąca przedmiotem zainteresowania jest rozkładana normalnie lub w przybliżeniu. Intuicyjnie normalność można rozumieć jako wynik sumy dużej liczby niezależnych zdarzeń losowych.

Mówiąc dokładniej, rozkłady normalne są definiowane przez następującą funkcję:

$alternatywny tekst$

gdzie i są odpowiednio średnią i wariancją i które wyglądają następująco: $\mu$ $\sigma^2$

Można to sprawdzić na wiele sposobów , które mogą być bardziej lub mniej dostosowane do Twojego problemu przez jego funkcje, takie jak rozmiar n. Zasadniczo wszystkie testują cechy oczekiwane, jeśli rozkład byłby normalny (np. Oczekiwany rozkład kwantylu ).

John L. Taylor
źródło

33

Jedna uwaga: założenie o normalności często NIE dotyczy twoich zmiennych, ale błędu, który jest szacowany na podstawie reszt. Na przykład w regresji liniowej ; nie ma założenia, że jest zwykle rozłożone, tylko jest. $Y = a + bx + e$ $Y$ $e$

Peter Flom - Przywróć Monikę
źródło

16

+1. Wreszcie ktoś wskazał, jaki być może najważniejszy aspekt tego pytania: w większości sytuacji „normalność” jest ważna w odniesieniu do reszt lub próbkowania rozkładów statystyk, a nie rozkładów populacji!

whuber

4

Dodałbym, że jeśli jest normalnie dystrybuowane, to Y jest również co najmniej warunkowo normalne. Myślę, że to jest pomijane - ludzie myślą, że Y jest marginalnie normalny, ale jego faktycznie warunkowa normalność jest potrzebna. Najprostszym przykładem tego jest jednokierunkowa ANOVA.

e

$e$

prawdopodobieństwo

Warunkowo na czym?

bill_e

1

@bill_e zmienne niezależne

Glen_b

10

Powiązane pytanie można znaleźć tutaj na temat normalnego założenia błędu (lub bardziej ogólnie danych, jeśli nie mamy wcześniejszej wiedzy na temat danych).

Gruntownie,

Matematycznie wygodne jest stosowanie rozkładu normalnego. (Jest to związane z dopasowaniem najmniejszych kwadratów i łatwe do rozwiązania za pomocą pseudoinwersji)
Ze względu na centralne twierdzenie graniczne możemy założyć, że istnieje wiele podstawowych faktów wpływających na proces, a suma tych indywidualnych efektów będzie miała tendencję do zachowywania się jak rozkład normalny. W praktyce wydaje się, że tak jest.

Ważną uwagą jest to, że, jak stwierdza tutaj Terence Tao , „Z grubsza mówiąc, to twierdzenie stwierdza, że jeśli weźmie się statystykę, która jest kombinacją wielu niezależnych i losowo zmieniających się składników, przy czym żaden element nie ma decydującego wpływu na całość , wówczas ta statystyka zostanie w przybliżeniu podzielona zgodnie z prawem zwanym rozkładem normalnym ”.

Aby to wyjaśnić, pozwól mi napisać fragment kodu w języku Python

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

Losowa dystrybucja

Rozkład wykładniczy

Jednolity rozkład

Jak widać na rysunkach, wynikowy rozkład (suma) zmierza w kierunku rozkładu normalnego, niezależnie od poszczególnych rodzajów rozkładu. Tak więc, jeśli nie mamy wystarczających informacji o podstawowych skutkach danych, założenie normalności jest uzasadnione.

petrichor
źródło

1

CLT nie pozwalają przypuszczać, istnieje wiele pojedynczych efektów w danym procesie - jeśli są podane , że istnieje wiele niezbyt zależnych poszczególnych czynników przyczyniających się do pomiaru (z których żaden nie miał zbyt dużo sumy wariacja), możemy być uzasadnieni zakładając normalność, odwołując się do CLT. Założenie, że wiele wkładów poprzedza stosowanie CLT, nie jest w żadnym sensie wynikiem CLT. W przeciwnym razie wszystko byłoby normalne, gdy w rzeczywistości jest to tylko z grubsza prawda.

Glen_b

5

Nie możesz wiedzieć, czy istnieje normalność i dlatego musisz założyć, że tam jest. Brak normalności możesz udowodnić jedynie za pomocą testów statystycznych.

Co gorsza, podczas pracy z danymi ze świata rzeczywistego jest prawie pewne, że nie ma prawdziwej normalności w danych.

Oznacza to, że Twój test statystyczny jest zawsze nieco stronniczy. Pytanie brzmi, czy możesz żyć z jego uprzedzeniami. Aby to zrobić, musisz zrozumieć swoje dane i rodzaj normalności, który zakłada twoje narzędzie statystyczne.

To jest powód, dla którego narzędzia Frequentist są tak subiektywne jak narzędzia Bayesa. Nie można ustalić na podstawie danych, które zwykle są dystrybuowane. Musisz założyć normalność.

chrześcijanin
źródło

5

Nie można niczego udowodnić za pomocą statystyk. Dowód ma być dokładny. Statystyki dotyczą prawdopodobieństw. Nawet wynik ap = 0,99 kwadratu Chi nie „dowodzi”, że podstawowy rozkład nie jest normalny. Cholernie mało prawdopodobne, że to normalne.

xmjx

@xmjx: Nie można nawet powiedzieć, że dana dystrybucja jest prawdopodobnie normalna. Jeśli masz rozkład, w którym 99,99% twoich wartości wynosi 1, ale 0,01% twoich wartości to 1000000, test statystyczny, w którym próbki 100 wartości ma dobrą szansę, aby powiedzieć ci, że Twój rozkład jest normalnie rozłożony.

Christian

2

Nie jestem ekspertem w dziedzinie statystyki, więc może to wydawać się głupim pytaniem ... czy nie ma „prawdziwej normalności” w podstawowym procesie, który generuje zmienną, a nie dane? To może wydawać się głupim rozróżnieniem, ale może uratuje trochę poszukiwania duszy. Jeśli zebrane dane nie są dokładnie normalne, ale leżący u ich podstaw losowy proces działa w zasadzie w normalny sposób, czy jest to sytuacja, w której możesz zdecydować się „żyć z uprzedzeniami”?

Jonathan

@Christian - twój komentarz, że „... 100 wartości ma dużą szansę ...” wcale nie znajduje potwierdzenia w moim hackowaniu: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> Założenie o normalności jest nadal „odrzucane” przez test KS.

rolando2

Podoba mi się ta odpowiedź (+1), ale jest nieco pesymistyczna co do tego, co można zrobić przy założeniu normalności. Zazwyczaj jest to dobry punkt wyjścia do dowolnego modelowania i można uogólnić na bardzo szeroką klasę rozkładów, biorąc albo mieszaniny, albo funkcje normalnie rozmieszczonych zmiennych losowych.

prawdopodobieństwo

4

Założenie normalności zakłada, że dane są zwykle rozłożone (krzywa dzwonowa lub rozkład gaussa). Możesz to sprawdzić, wykreślając dane lub sprawdzając miary kurtozy (jak ostry jest szczyt) i skewdness (?) (Jeśli więcej niż połowa danych znajduje się po jednej stronie piku).

Menno
źródło

2

Jakie poziomy kurtozy i skośności są dopuszczalne, aby spełnić założenie normalności?

A Lion

5

Większość metod statystycznych zakłada normalność nie danych, ale raczej założonej zmiennej losowej, np. Warunek błędu w regresji liniowej. Sprawdzanie polega na sprawdzeniu resztek, a nie oryginalnych danych!

3

Inne odpowiedzi obejmowały to, czym jest normalność i sugerowały metody testowania normalności. Christian podkreślił, że w praktyce idealna normalność prawie nie istnieje.

Podkreślam, że zaobserwowane odchylenie od normalności niekoniecznie oznacza, że metody zakładające normalność mogą nie być stosowane, a test normalności może nie być bardzo przydatny.

Odchylenie od normalności może być spowodowane wartościami odstającymi wynikającymi z błędów w gromadzeniu danych. W wielu przypadkach sprawdzanie dzienników gromadzenia danych można poprawić te liczby, a normalność często się poprawia.
W przypadku dużych próbek test normalności będzie w stanie wykryć nieznaczne odchylenie od normalności.
Metody zakładające normalność mogą być odporne na nienormalność i dawać wyniki z akceptowalną dokładnością. Test t jest znany jako solidny w tym sensie, podczas gdy test F nie jest ^{źródłem (bezpośredni link )} . Jeśli chodzi o konkretną metodę, najlepiej sprawdzić literaturę na temat odporności.

GaBorgulya
źródło

1

Myślę, że powodem, dla którego normalność jest dobrym założeniem, jest względny brak wykorzystania danych - tylko dwa pierwsze momenty są używane do oszacowania z rozkładem normalnym. To sprawia, że sprawdzanie diagnostyczne modelu najmniejszych kwadratów jest bardzo łatwe - po prostu szukasz wartości odstających, które mogłyby wpłynąć na wystarczającą statystykę.

prawdopodobieństwo

3

Aby dodać do powyższych odpowiedzi: „Założeniem normalności” jest to, że w modelu termin resztowy jest zwykle rozłożony. Założenie to (jak ANOVA), często idzie w parze z innego 2) wariancji z jest stała, 3) niezależność obserwacji. $Y=\mu+X\beta +\epsilon$ $\epsilon$ $\sigma^2$ $\epsilon$

Z tych trzech założeń 2) i 3) są w większości ważniejsze niż 1)! Więc powinieneś zająć się nimi bardziej. George Box powiedział coś w stylu „” Wykonanie wstępnego testu na wariancje jest raczej jak wypłynięcie w morze łodzią wiosłową, aby dowiedzieć się, czy warunki są wystarczająco spokojne, aby liniowiec oceaniczny mógł opuścić port! ”- [Box”, „Non” -normalność i testy wariancji ”, 1953, Biometrika 40, ss. 318–335]”

Oznacza to, że nierówne wariancje budzą duże zaniepokojenie, ale w rzeczywistości ich testowanie jest bardzo trudne, ponieważ na testy wpływa nienormalność tak mała, że nie ma ona znaczenia dla testów średnich. Obecnie istnieją testy nieparametryczne dla nierównych wariancji, które ZAWSZE należy zastosować.

Krótko mówiąc, skup się na PIERWSZYCH na nierównych wariancjach, a następnie na normalności. Kiedy wypowiesz się na ich temat, możesz pomyśleć o normalności!

Oto wiele dobrych rad: http://rfd.uoregon.edu/files/rfd/StatisticResources/glm10_homog_var.txt

kjetil b halvorsen
źródło

Jestem pewien, że moja interpretacja jest słuszna. Box również napisał o tym obszernie w Box, Hunter & Hunter: Statistics for Experimenters, które dokładnie przeczytałem. Ale teraz widzę, że to, o czym pisałem, a nie to, co miałem na myśli, powinno powiedzieć ... to o normalności! nierówne wariancje są znacznie ważniejsze niż normalność. Oczywiście niezależność jest matką wszystkich założeń.

kjetil b halvorsen

Co to jest normalność?

Odpowiedzi: