Pozornie renomowane źródła twierdzą, że zmienna zależna musi być normalnie dystrybuowana:
Założenia modelu: jest normalnie rozłożone, błędy są normalnie rozłożone, i niezależne, a jest stały, a stała wariancja .
Po drugie, analiza regresji liniowej wymaga, aby wszystkie zmienne były wielowymiarowe normalne.
Jest to właściwe, gdy zmienna odpowiedzi ma rozkład normalny
Czy istnieje dobre wytłumaczenie, w jaki sposób i dlaczego rozprzestrzeniło się to nieporozumienie? Czy jego pochodzenie jest znane?
X <- runif(n=100)
następnieY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
graj histogramami, aby przekonać się, że ani X, ani Y nie są normalnie rozłożone. Następniesummary(lm(Y ~ X))
zwróć szczególną uwagę na to, jak blisko przecięcia jest 3, a nachylenie X wynosi 0,5. Zakłada się, że błędy są zwykle rozkładane.Odpowiedzi:
„T musi być normalnie dystrybuowane”
musieć?
W przypadkach, o których wspominasz, jest to niedbały język (w skrócie „błąd w Y musi być normalnie dystrybuowany” ), ale tak naprawdę nie mówią (zdecydowanie), że odpowiedź musi być normalnie dystrybuowana, a przynajmniej nie wydaje się mnie, że ich słowa były tak przeznaczone.
Materiał kursu Penn State
wyjaśniając jakiś wariant GLM (binarna regresja logistyczna),
w jakiejś definicji
Strona Statisticssolutions
to niezwykle krótki, uproszczony, stylizowany opis. Nie jestem pewien, czy powinieneś brać to na poważnie. Na przykład mówi o tym
więc to nie jest tylko zmienna odpowiedzi,
a także deskryptor „wielowymiarowy” jest niejasny. Nie jestem pewien, jak to interpretować.
Artykuł w Wikipedii
ma dodatkowy kontekst wyjaśniony w nawiasach:
Ta szczególna linia została dodana 8 marca 2012 r. , Ale zauważ, że w pierwszym wierszu artykułu w Wikipedii nadal czytamy „elastyczne uogólnienie zwykłej regresji liniowej, która pozwala na zmienne odpowiedzi, które mają modele rozkładu błędów inne niż rozkład normalny” i nie jest tak bardzo (nie wszędzie) źle.
Wniosek
Opierając się na tych trzech przykładach (które rzeczywiście mogą generować nieporozumienia, a przynajmniej mogą być źle rozumiane), nie powiedziałbym, że „to nieporozumienie się rozprzestrzeniło” . Przynajmniej nie wydaje mi się, że intencją tych trzech przykładów jest argumentowanie, że Y musi być normalnie rozproszone (chociaż pamiętam, że ten problem pojawił się wcześniej tutaj podczas wymiany stosów, zamiana między błędami o rozkładzie normalnym a zmienną odpowiedzi o rozkładzie normalnym jest łatwe do wykonania).
Tak więc założenie, że „Y musi być normalnie dystrybuowane” wydaje mi się nie jak powszechne przekonanie / błędne przekonanie (jak w czymś, co rozprzestrzenia się jak czerwony śledź), ale bardziej jak zwykły błąd (który nie rozprzestrzenia się, ale jest robiony niezależnie za każdym razem ).
Dodatkowy komentarz
Przykładem błędu na tej stronie jest następujące pytanie
Co jeśli resztki są normalnie rozłożone, ale y nie jest?
Uznałbym to za pytanie dla początkujących. Nie ma go w materiałach takich jak materiał kursu Penn State, strona internetowa Wikipedii, a ostatnio zauważył w komentarzach książkę „Rozszerzanie regresji liniowej o R”.
Autorzy tych prac poprawnie rozumieją materiał. Rzeczywiście używają wyrażeń takich jak „Y musi być normalnie rozłożony”, ale na podstawie kontekstu i użytych wzorów widać, że wszystkie one oznaczają „Y, zależnie od X, muszą być normalnie rozłożone”, a nie „marginalne Y musi być normalnie dystrybuowane ”. Nie sami błędnie pojmują ten pomysł, a przynajmniej pomysł ten nie jest rozpowszechniony wśród statystyk i ludzi, którzy piszą książki i inne materiały dydaktyczne. Ale błędne odczytanie ich dwuznacznych słów może rzeczywiście spowodować nieporozumienie.
źródło
Na ogół uczymy studentów „uproszczonej” wersji statystyki w wielu dyscyplinach. Jestem psychologiem i kiedy próbuję powiedzieć studentom, że wartości p są „prawdopodobieństwem danych - lub bardziej ekstremalnych danych - biorąc pod uwagę, że hipoteza zerowa jest prawdziwa”, koledzy mówią mi, że opisuję więcej szczegółów, niż potrzebuję na pokrycie. Że sprawiam, że jest to trudniejsze, niż musi być itp. Ponieważ uczniowie w klasach mają tak szeroki zakres komfortu (lub jego brak) ze statystykami, instruktorzy na ogół utrzymują prostotę: „Uważamy to za wiarygodne stwierdzenie, jeśli p <.05 ”, na przykład, zamiast podania rzeczywistej definicji wartości p .
Myślę, że to właśnie tutaj wyjaśniło się, dlaczego błędne przekonanie się rozprzestrzeniło. Na przykład możesz napisać model jako:
Można to zapisać ponownie jako:
Co oznacza, że „Y, zależne od X, jest zwykle rozkładane ze średnią przewidywanych wartości i pewną wariancją”.
Trudno to wytłumaczyć, dlatego ludzie mogą po prostu powiedzieć: „T musi być normalnie rozłożone”. Lub kiedy zostało im to pierwotnie wyjaśnione, ludzie źle zrozumieli część warunkową - ponieważ, szczerze mówiąc, jest to mylące.
Dlatego, aby nie komplikować sytuacji, instruktorzy po prostu upraszczają to, co mówią, aby nie nadmiernie mylić większości uczniów. A potem ludzie kontynuują naukę statystyczną lub praktykę statystyczną z tym błędnym przekonaniem. Sam nie do końca zrozumiałem tę koncepcję, dopóki nie zacząłem modelować bayesowskiego w Stanie, co wymaga zapisania swoich założeń w ten sposób:
Ponadto w wielu pakietach statystycznych z graficznym interfejsem użytkownika (patrząc na ciebie, SPSS) łatwiej jest sprawdzić, czy rozkład krańcowy jest normalnie rozłożony (prosty histogram), niż sprawdzić, czy reszty są normalnie rozłożone (regresja przebiegu, zapisz resztki, uruchom histogram na tych resztkach).
Tak więc myślę, że błędne przekonanie wynika głównie z tego, że instruktorzy próbują zgolić szczegóły, aby uczniowie nie byli zdezorientowani, szczere - i zrozumiałe - zamieszanie wśród osób uczących się tego we właściwy sposób, a oba te czynniki zostały wzmocnione przez łatwość sprawdzenia marginalnej normalności w najbardziej przyjazne dla użytkownika pakiety statystyczne.
źródło
Analiza regresji jest trudna dla początkujących, ponieważ istnieją różne wyniki wynikające z różnych założeń początkowych. Słabsze założenia początkowe mogą uzasadniać niektóre wyniki, ale można uzyskać lepsze wyniki, dodając mocniejsze założenia. Ludzie, którzy nie są zaznajomieni z pełnym matematycznym wyprowadzaniem wyników, mogą często źle zrozumieć wymagane założenia dla wyniku, albo przedstawiając swój model zbyt słabo, aby uzyskać wymagany wynik, albo przedstawiając niepotrzebne założenia w przekonaniu, że są one wymagane dla wyniku .
Chociaż możliwe jest dodanie silniejszych założeń w celu uzyskania dodatkowych wyników, analiza regresji dotyczy samego warunkowego rozkładu wektora odpowiedzi. Jeśli model wykracza poza to, wchodzi na obszar analizy wielowymiarowej i nie jest ściśle (tylko) modelem regresji. Sprawę dodatkowo komplikuje fakt, że częste jest odwoływanie się do wyników rozkładu w regresji, nie zawsze uważając, aby były to rozkłady warunkowe (biorąc pod uwagę zmienne objaśniające w macierzy projektu). W przypadkach, w których modele wykraczają poza rozkłady warunkowe (przyjmując rozkład krańcowy dla wektorów objaśniających), użytkownik powinien ostrożnie określić tę różnicę; niestety ludzie nie zawsze są z tym ostrożni.
Homoskedastyczny model regresji liniowej: najwcześniejszym najczęściej używanym punktem początkowym jest przyjęcie formy modelu i pierwszych dwóch momentów błędu bez żadnego założenia o normalności:
Ta konfiguracja jest wystarczająca, aby umożliwić uzyskanie estymatora OLS dla współczynników, obiektywnego estymatora dla wariancji błędu, reszt i momentów wszystkich tych wielkości losowych (zależnie od zmiennych objaśniających w macierzy projektowej). Nie pozwala uzyskać pełnego rozkładu warunkowego tych wielkości, ale pozwala odwoływać się do rozkładów asymptotycznych, jeśli jest duże, a pewne dodatkowe założenia dotyczą ograniczającego zachowania . Aby pójść dalej, często przyjmuje się określoną formę dystrybucyjną dla wektora błędu.xn x
Błędy normalne: większość metod leczenia homoskedastycznego modelu regresji liniowej zakłada, że wektor błędów jest zwykle rozkładany, co w połączeniu z założeniami momentu daje:
To dodatkowe założenie jest wystarczające, aby zapewnić, że estymator OLS dla współczynników jest MLE dla modelu, a także oznacza, że estymator współczynnika i reszty są normalnie rozłożone, a estymator wariancji błędu ma skalowany rozkład chi-kwadrat (wszystkie uwarunkowane zmiennymi objaśniającymi w macierzy projektowej). Zapewnia również, że wektor odpowiedzi jest normalnie rozłożony warunkowo. Daje to wyniki dystrybucji zależne od zmiennych objaśniających w analizie, co pozwala na konstruowanie przedziałów ufności i testów hipotez. Jeśli analityk chce poczynić ustalenia dotyczące krańcowego rozkładu odpowiedzi, musi pójść dalej i przyjąć rozkład zmiennych objaśniających w modelu.
Wspólnie normalne zmienne objaśniające: Niektóre metody leczenia homoscedastycznej regresji liniowej wykraczają poza standardowe metody leczenia i nie wymagają ustalonych zmiennych objaśniających. (Prawdopodobnie jest to przejście od modelowania regresji do analizy wielowymiarowej). Najczęstszym tego rodzaju modelem jest założenie, że wektory wyjaśniające to losowe wektory IID połączone normalnie. Niech będzie tym wektorem objaśniającym ( -tym wierszem macierzy projektu): i iX(i) i i
To dodatkowe założenie jest wystarczające, aby zapewnić, że wektor odpowiedzi jest rozkładem marginalnie normalnie. Jest to silne założenie i zwykle nie jest narzucone w większości problemów. Jak już wspomniano, model ten wykracza poza obszar modelowania regresji i przechodzi do analizy wielowymiarowej.
źródło