Założenie normalności w regresji liniowej

11

Jako założenie regresji liniowej normalność rozkładu błędu jest czasami błędnie „rozszerzana” lub interpretowana jako potrzeba normalności y lub x.

Czy można skonstruować scenariusz / zestaw danych, w którym X i Y są nienormalne, ale wartość błędu jest, a zatem uzyskane szacunki regresji liniowej są prawidłowe?

ECII
źródło
5
Trywialny przykład: X ma rozkład Bernoulliego (tzn. Przyjmuje wartości 0 lub 1); Y = X + N (0, 0,1). Ani X, ani Y nie są zwykle dystrybuowane same, ale regresja Y na X nadal działa.
Hong Ooi
Myślę, że myślisz o rozkładzie reszt, a nie o rozkładzie zmiennych.
tashuhka
5
Mam tutaj wypracowany przykład: Co jeśli resztki są normalnie rozłożone, ale Y nie?
gung - Przywróć Monikę
Powiązane: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen

Odpowiedzi:

16

Rozszerzanie komentarza Hong Oois o obraz. Oto obraz zestawu danych, w którym żaden z marginesów nie jest normalnie rozłożony, ale reszty nadal są, dlatego założenia regresji liniowej są nadal aktualne:

wprowadź opis zdjęcia tutaj

Obraz został wygenerowany przez następujący kod R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Rasmus Bååth
źródło