Skąd bierze się błędne przekonanie, że Y musi być normalnie dystrybuowane?

45

Pozornie renomowane źródła twierdzą, że zmienna zależna musi być normalnie dystrybuowana:

Założenia modelu: Y jest normalnie rozłożone, błędy są normalnie rozłożone, eiN(0,σ2) i niezależne, a X jest stały, a stała wariancja σ2 .

Penn State, STAT 504 Analiza danych dyskretnych

Po drugie, analiza regresji liniowej wymaga, aby wszystkie zmienne były wielowymiarowe normalne.

Statystyka Rozwiązania , założenia regresji liniowej

Jest to właściwe, gdy zmienna odpowiedzi ma rozkład normalny

Wikipedia, Uogólniony model liniowy

Czy istnieje dobre wytłumaczenie, w jaki sposób i dlaczego rozprzestrzeniło się to nieporozumienie? Czy jego pochodzenie jest znane?

Związane z

timwiz
źródło
17
Smutny. Robisz tutaj dobry uczynek ...
łucznik
7
Nie znam żadnej sytuacji wykorzystującej regresję liniową, która wymaga marginalnego rozkładu , lub połączenie wszystkich zmiennych jest normalne dla wielu zmiennych. Wyglądają mi na nieporozumienia. Y
Matthew Drury,
8
@MichaelChernick „Y jest normalnie rozpowszechniany” jest ewidentnie fałszywe. Sprawdź to w R: X <- runif(n=100)następnie Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)graj histogramami, aby przekonać się, że ani X, ani Y nie są normalnie rozłożone. Następnie summary(lm(Y ~ X))zwróć szczególną uwagę na to, jak blisko przecięcia jest 3, a nachylenie X wynosi 0,5. Zakłada się, że błędy są zwykle rozkładane.
Alexis,
9
@Alexis Uważam, że Michael próbował powiedzieć, że założenia wielowymiarowej normalności są wystarczające, ale nie konieczne. Tak właśnie należy przeczytać cytat z Wikipedii. Drugi cytat jest oczywiście błędny w twierdzeniu, że założenia te są konieczne. Pierwszy cytat jest dwuznaczny, ale można go szczodrze odczytać w sensie wyjaśnionym przez Michaela.
whuber
6
Powiedziałem tylko, że założenie normalności implikuje pewne właściwości. Na przykład w prostej regresji liniowej, jeśli założymy, że warunki błędu są normalne ze średnią zerową i stałą wariancją, oszacowanie parametrów regresji metodą najmniejszych kwadratów jest maksymalne. Zachowanie wszystkich założeń oprócz normalności, że najmniejsze kwadraty nie jest już maksymalnym prawdopodobieństwem, ale nadal jest obiektywne w stosunku do minimalnej wariancji.
Michael Chernick,

Odpowiedzi:

13

„T musi być normalnie dystrybuowane”

musieć?


W przypadkach, o których wspominasz, jest to niedbały język (w skrócie „błąd w Y musi być normalnie dystrybuowany” ), ale tak naprawdę nie mówią (zdecydowanie), że odpowiedź musi być normalnie dystrybuowana, a przynajmniej nie wydaje się mnie, że ich słowa były tak przeznaczone.

Materiał kursu Penn State

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • wyjaśniając jakiś wariant GLM (binarna regresja logistyczna),

    YBinomial(n,π)

  • w jakiejś definicji

    YYY

YiY

  • Yi

Strona Statisticssolutions

to niezwykle krótki, uproszczony, stylizowany opis. Nie jestem pewien, czy powinieneś brać to na poważnie. Na przykład mówi o tym

.. wymaga, aby wszystkie zmienne były normalne na wielu odmianach ...

więc to nie jest tylko zmienna odpowiedzi,

a także deskryptor „wielowymiarowy” jest niejasny. Nie jestem pewien, jak to interpretować.

Artykuł w Wikipedii

ma dodatkowy kontekst wyjaśniony w nawiasach:

Zwykła regresja liniowa przewiduje oczekiwaną wartość danej nieznanej wielkości (zmienna odpowiedzi, zmienna losowa) jako liniową kombinację zestawu obserwowanych wartości (predyktorów) . Oznacza to, że stała zmiana w predyktorze prowadzi do stałej zmiany zmiennej odpowiedzi (tj. Modelu odpowiedzi liniowej). Jest to właściwe, gdy zmienna odpowiedzi ma rozkład normalny (intuicyjnie, gdy zmienna odpowiedzi może zmieniać się zasadniczo w nieskończoność w obu kierunkach bez stałej „wartości zerowej”, lub bardziej ogólnie dla dowolnej wielkości, która zmienia się tylko o stosunkowo niewielką ilość, np. Człowieka wysokości).

y+ϵϵN(0,σ)

Ta szczególna linia została dodana 8 marca 2012 r. , Ale zauważ, że w pierwszym wierszu artykułu w Wikipedii nadal czytamy „elastyczne uogólnienie zwykłej regresji liniowej, która pozwala na zmienne odpowiedzi, które mają modele rozkładu błędów inne niż rozkład normalny” i nie jest tak bardzo (nie wszędzie) źle.


Wniosek

Opierając się na tych trzech przykładach (które rzeczywiście mogą generować nieporozumienia, a przynajmniej mogą być źle rozumiane), nie powiedziałbym, że „to nieporozumienie się rozprzestrzeniło” . Przynajmniej nie wydaje mi się, że intencją tych trzech przykładów jest argumentowanie, że Y musi być normalnie rozproszone (chociaż pamiętam, że ten problem pojawił się wcześniej tutaj podczas wymiany stosów, zamiana między błędami o rozkładzie normalnym a zmienną odpowiedzi o rozkładzie normalnym jest łatwe do wykonania).

Tak więc założenie, że „Y musi być normalnie dystrybuowane” wydaje mi się nie jak powszechne przekonanie / błędne przekonanie (jak w czymś, co rozprzestrzenia się jak czerwony śledź), ale bardziej jak zwykły błąd (który nie rozprzestrzenia się, ale jest robiony niezależnie za każdym razem ).


Dodatkowy komentarz

Przykładem błędu na tej stronie jest następujące pytanie

Co jeśli resztki są normalnie rozłożone, ale y nie jest?

Uznałbym to za pytanie dla początkujących. Nie ma go w materiałach takich jak materiał kursu Penn State, strona internetowa Wikipedii, a ostatnio zauważył w komentarzach książkę „Rozszerzanie regresji liniowej o R”.

Autorzy tych prac poprawnie rozumieją materiał. Rzeczywiście używają wyrażeń takich jak „Y musi być normalnie rozłożony”, ale na podstawie kontekstu i użytych wzorów widać, że wszystkie one oznaczają „Y, zależnie od X, muszą być normalnie rozłożone”, a nie „marginalne Y musi być normalnie dystrybuowane ”. Nie sami błędnie pojmują ten pomysł, a przynajmniej pomysł ten nie jest rozpowszechniony wśród statystyk i ludzi, którzy piszą książki i inne materiały dydaktyczne. Ale błędne odczytanie ich dwuznacznych słów może rzeczywiście spowodować nieporozumienie.

Sextus Empiricus
źródło
3
+1 To powiedziawszy: Myślę, że wszyscy widzieliśmy wiele pytań potwierdzających marginalną normalność Y tutaj ... istnieje pewna liczba nieporozumień. :)
Alexis,
Tak, zgadzam się, że założenie „normalnie rozłożone” występuje często (nie mogłem łatwo znaleźć przykładów, ale może to być spowodowane tym, że ludzie opisują te rzeczy między wierszami, a nie za pomocą prostych słów kluczowych). Uważam jednak, że jest to coś bardziej „powszechnego”, a nie coś, co „ rozprasza się”. I przynajmniej z pewnością trzy przykłady podane przez PO nie są bardzo silne (niezbyt silne w znaczeniu wskazującym na rozprzestrzenianie się błędnego przekonania, chociaż opisują patologiczne użycie języka i sposób, w jaki mogą powstać błędy).
Sextus Empiricus
@Martijn Weterings: Chciałbym się nie zgodzić z twoim stwierdzeniem „Nie powiedziałbym, że to nieporozumienie się rozprzestrzeniło”. W swojej książce Rozszerzanie regresji liniowej o R, stosownie do potrzeb czytania w wielu programach statystycznych dla absolwentów, Julian Faraway stwierdza na stronie xi we Wstępie tej książki, że „Standardowy model liniowy nie jest w stanie obsłużyć niestandardowych odpowiedzi, tak jak się liczy lub proporcje ".
ColorStatistics
n1(r1)(c1)
1
y=β0+β1x1+...βpxp+ϵϵodpowiedź powinna mieć określony rozkład, o którym mowa.
Sextus Empiricus
29

Czy istnieje dobre wytłumaczenie, w jaki sposób / dlaczego rozpowszechniło się to nieporozumienie? Czy jego pochodzenie jest znane?

Na ogół uczymy studentów „uproszczonej” wersji statystyki w wielu dyscyplinach. Jestem psychologiem i kiedy próbuję powiedzieć studentom, że wartości p są „prawdopodobieństwem danych - lub bardziej ekstremalnych danych - biorąc pod uwagę, że hipoteza zerowa jest prawdziwa”, koledzy mówią mi, że opisuję więcej szczegółów, niż potrzebuję na pokrycie. Że sprawiam, że jest to trudniejsze, niż musi być itp. Ponieważ uczniowie w klasach mają tak szeroki zakres komfortu (lub jego brak) ze statystykami, instruktorzy na ogół utrzymują prostotę: „Uważamy to za wiarygodne stwierdzenie, jeśli p <.05 ”, na przykład, zamiast podania rzeczywistej definicji wartości p .

Myślę, że to właśnie tutaj wyjaśniło się, dlaczego błędne przekonanie się rozprzestrzeniło. Na przykład możesz napisać model jako:

Y=β0+β1X+ϵϵN(0,σϵ2)

Można to zapisać ponownie jako:

Y|XN(β0+β1X,σϵ2)

Co oznacza, że ​​„Y, zależne od X, jest zwykle rozkładane ze średnią przewidywanych wartości i pewną wariancją”.

Trudno to wytłumaczyć, dlatego ludzie mogą po prostu powiedzieć: „T musi być normalnie rozłożone”. Lub kiedy zostało im to pierwotnie wyjaśnione, ludzie źle zrozumieli część warunkową - ponieważ, szczerze mówiąc, jest to mylące.

Dlatego, aby nie komplikować sytuacji, instruktorzy po prostu upraszczają to, co mówią, aby nie nadmiernie mylić większości uczniów. A potem ludzie kontynuują naukę statystyczną lub praktykę statystyczną z tym błędnym przekonaniem. Sam nie do końca zrozumiałem tę koncepcję, dopóki nie zacząłem modelować bayesowskiego w Stanie, co wymaga zapisania swoich założeń w ten sposób:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Ponadto w wielu pakietach statystycznych z graficznym interfejsem użytkownika (patrząc na ciebie, SPSS) łatwiej jest sprawdzić, czy rozkład krańcowy jest normalnie rozłożony (prosty histogram), niż sprawdzić, czy reszty są normalnie rozłożone (regresja przebiegu, zapisz resztki, uruchom histogram na tych resztkach).

Tak więc myślę, że błędne przekonanie wynika głównie z tego, że instruktorzy próbują zgolić szczegóły, aby uczniowie nie byli zdezorientowani, szczere - i zrozumiałe - zamieszanie wśród osób uczących się tego we właściwy sposób, a oba te czynniki zostały wzmocnione przez łatwość sprawdzenia marginalnej normalności w najbardziej przyjazne dla użytkownika pakiety statystyczne.

Mark White
źródło
2
Myślę, że masz rację. Wiele osób nie rozumie części warunkowej. Po prostu myślą, że są normalne.
SmallChess
3
Zgadzam się, że może to być jeden z trybów, w których ten błąd występuje / się rozprzestrzenia. Wydaje mi się jednak, że materiał kursu Penn State nie wynika z tego „celowego” uproszczenia, a także z powodu niechlujnego zapisu notacji. To trochę jak małe (oczywiście) nuty. Lub jak komentarze do wymiany stosów, uproszczenia w języku. W niektórych miejscach używają poprawnych słów. (osobiście moje schematy / diagramy są lepsze niż moje słowa / formuły, ale to nie znaczy, że to, co piszę, jeśli jest złe, niekoniecznie jest złym pomysłem)
Sextus Empiricus
1
@MartijnWeterings uzgodnione - bardzo łatwo pomylić kogoś, nie używając określonego języka. Trudno jest zawsze sprecyzować swój język w czymś tak abstrakcyjnym jak założenia statystyczne, a wielu inteligentnych ludzi popełnia proste błędy, prowadząc do takich powszechnych nieporozumień.
Mark White
1
MarkWhite, naprawdę doceniam uwagę, jaką kierujesz na to, jak uczymy ... Myślę, że to w istotny sposób odnosi się do zainteresowania PO „rozprzestrzenianiem się nieporozumień” (oprócz niuansów tego, co jest, a co nie jest nieporozumieniem ).
Alexis,
16

Analiza regresji jest trudna dla początkujących, ponieważ istnieją różne wyniki wynikające z różnych założeń początkowych. Słabsze założenia początkowe mogą uzasadniać niektóre wyniki, ale można uzyskać lepsze wyniki, dodając mocniejsze założenia. Ludzie, którzy nie są zaznajomieni z pełnym matematycznym wyprowadzaniem wyników, mogą często źle zrozumieć wymagane założenia dla wyniku, albo przedstawiając swój model zbyt słabo, aby uzyskać wymagany wynik, albo przedstawiając niepotrzebne założenia w przekonaniu, że są one wymagane dla wyniku .

Chociaż możliwe jest dodanie silniejszych założeń w celu uzyskania dodatkowych wyników, analiza regresji dotyczy samego warunkowego rozkładu wektora odpowiedzi. Jeśli model wykracza poza to, wchodzi na obszar analizy wielowymiarowej i nie jest ściśle (tylko) modelem regresji. Sprawę dodatkowo komplikuje fakt, że częste jest odwoływanie się do wyników rozkładu w regresji, nie zawsze uważając, aby były to rozkłady warunkowe (biorąc pod uwagę zmienne objaśniające w macierzy projektu). W przypadkach, w których modele wykraczają poza rozkłady warunkowe (przyjmując rozkład krańcowy dla wektorów objaśniających), użytkownik powinien ostrożnie określić tę różnicę; niestety ludzie nie zawsze są z tym ostrożni.


Homoskedastyczny model regresji liniowej: najwcześniejszym najczęściej używanym punktem początkowym jest przyjęcie formy modelu i pierwszych dwóch momentów błędu bez żadnego założenia o normalności:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Ta konfiguracja jest wystarczająca, aby umożliwić uzyskanie estymatora OLS dla współczynników, obiektywnego estymatora dla wariancji błędu, reszt i momentów wszystkich tych wielkości losowych (zależnie od zmiennych objaśniających w macierzy projektowej). Nie pozwala uzyskać pełnego rozkładu warunkowego tych wielkości, ale pozwala odwoływać się do rozkładów asymptotycznych, jeśli jest duże, a pewne dodatkowe założenia dotyczą ograniczającego zachowania . Aby pójść dalej, często przyjmuje się określoną formę dystrybucyjną dla wektora błędu.xnx

Błędy normalne: większość metod leczenia homoskedastycznego modelu regresji liniowej zakłada, że ​​wektor błędów jest zwykle rozkładany, co w połączeniu z założeniami momentu daje:

ε|xN(0,σ2I).

To dodatkowe założenie jest wystarczające, aby zapewnić, że estymator OLS dla współczynników jest MLE dla modelu, a także oznacza, że ​​estymator współczynnika i reszty są normalnie rozłożone, a estymator wariancji błędu ma skalowany rozkład chi-kwadrat (wszystkie uwarunkowane zmiennymi objaśniającymi w macierzy projektowej). Zapewnia również, że wektor odpowiedzi jest normalnie rozłożony warunkowo. Daje to wyniki dystrybucji zależne od zmiennych objaśniających w analizie, co pozwala na konstruowanie przedziałów ufności i testów hipotez. Jeśli analityk chce poczynić ustalenia dotyczące krańcowego rozkładu odpowiedzi, musi pójść dalej i przyjąć rozkład zmiennych objaśniających w modelu.

Wspólnie normalne zmienne objaśniające: Niektóre metody leczenia homoscedastycznej regresji liniowej wykraczają poza standardowe metody leczenia i nie wymagają ustalonych zmiennych objaśniających. (Prawdopodobnie jest to przejście od modelowania regresji do analizy wielowymiarowej). Najczęstszym tego rodzaju modelem jest założenie, że wektory wyjaśniające to losowe wektory IID połączone normalnie. Niech będzie tym wektorem objaśniającym ( -tym wierszem macierzy projektu): i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

To dodatkowe założenie jest wystarczające, aby zapewnić, że wektor odpowiedzi jest rozkładem marginalnie normalnie. Jest to silne założenie i zwykle nie jest narzucone w większości problemów. Jak już wspomniano, model ten wykracza poza obszar modelowania regresji i przechodzi do analizy wielowymiarowej.

Przywróć Monikę
źródło
1
Uznałem za bardzo wnikliwy sposób, w jaki wprowadzałeś silniejsze założenia jeden po drugim i opisywałeś implikacje.
ColorStatistics