Co jeśli resztki są normalnie rozłożone, ale y nie jest?

110

Mam dziwne pytanie. Załóżmy, że masz małą próbkę, w której zmienna zależna, którą zamierzasz przeanalizować za pomocą prostego modelu liniowego, jest mocno pochylona. Zatem zakładasz, że nie jest normalnie dystrybuowany, ponieważ spowodowałoby to normalną dystrybucję . Ale podczas obliczania wykresu QQ-Normal istnieją dowody, że reszty są zwykle rozkładane. Zatem każdy może założyć, że termin błędu jest zwykle rozłożony, chociaż nie jest. Co to znaczy, że termin błędu wydaje się być normalnie rozłożony, nie? $u$ $y$ $y$ $y$

regression residuals error normality-assumption MarkDollar
źródło

Odpowiedzi:

143

Rozsądne jest, aby resztki problemu regresji były normalnie rozłożone, nawet jeśli zmienna odpowiedzi nie jest. Rozważ problem regresji jednoczynnikowej, w którym . aby model regresji był odpowiedni, i dalej zakładamy, że prawdziwa wartość . W tym przypadku, podczas gdy reszty modelu prawdziwej regresji są normalne, rozkład zależy od rozkładu , ponieważ średnia warunkowa jest funkcją . Jeśli zestaw danych ma wiele wartości które są bliskie zeru i stopniowo maleją, im wyższa jest wartość , wówczas rozkład $y \sim \mathcal{N}(\beta x, \sigma^2)$ $\beta=1$ $y$ $x$ $y$ $x$ $x$ $x$ $y$ zostanie przekrzywiony w lewo. Jeśli wartości są rozkładane symetrycznie, będzie rozkładane symetrycznie i tak dalej. W przypadku problemu z regresją zakładamy, że odpowiedź jest normalna zależna od wartości . $x$ $y$ $x$

Dikran Torbacz
źródło

(+1) Nie sądzę, że można to powtarzać wystarczająco często! Zobacz także ten sam temat omówiony tutaj .

Wolfgang

Rozumiem twoją odpowiedź i brzmi poprawnie. Przynajmniej zdobyłeś wiele pozytywnych głosów :) Ale ja wcale nie jestem szczęśliwy. Tak więc w twoim przykładzie przyjęte przez ciebie założenia to . Ale kiedy szacuję regresję, szacuję . Dlatego powinno być podane w momencie, gdy szacuję średnią. Z tego wynika, że x jest wartością i nie dbam o to, w jaki sposób został rozprowadzony, zanim go zrealizowałem. Zatem jest rozkładem . Nie rozumiem, gdzie wpływa na .

β = 1

$\beta=1$

y \sim N (1 \cdot x, σ^{2})

$y\sim N(1\cdot x,\sigma^{2})$

E (y | x)

$E(y|x)$

x

$x$

y \sim N (v a l u e, σ^{2})

$y\sim N(value,\sigma^{2})$

y

$y$

x

$x$

y

$y$

MarkDollar

Jestem również (mile) zaskoczony liczbą głosów; o) Aby uzyskać dane wykorzystane do dopasowania modelu regresji, pobrałeś próbkę z pewnego wspólnego rozkładu , na podstawie którego chcesz oszacować . Ponieważ jednak jest (zaszumioną) funkcją , rozkład próbek musi zależeć od rozkładu próbek dla tej konkretnej próbki. Możesz nie być zainteresowany „prawdziwym” rozkładem , ale przykładowy rozkład y zależy od próbki x.

p (y, x)

$p(y,x)$

E (y | x)

$E(y|x)$

y

$y$

x

$x$

y

$y$

x

$x$

x

$x$

Dikran Marsupial

Rozważ przykład szacowania temperatury ( ) jako funkcji szerokości geograficznej ( ). Rozkład wartości w naszej próbce będzie zależeć od tego, gdzie zdecydujemy się rozmieścić stacje pogodowe. Jeśli umieścimy je wszystkie na biegunach lub na równiku, będziemy mieli rozkład bimodalny. Jeśli umieścimy je na regularnej siatce o równej powierzchni, uzyskamy jednomodalny rozkład wartości , mimo że fizyka klimatu jest taka sama dla obu próbek. Oczywiście wpłynie to na dopasowany model regresji, a badanie tego rodzaju rzeczy znane jest pod nazwą „przesunięcia współzmiennego”. HTH

y

$y$

x

$x$

y

$y$

y

$y$

Dikran Marsupial

Podejrzewam również, że jest uwarunkowane domniemanym założeniem, że wykorzystane dane były próbką wewnętrzną z operacyjnego wspólnego rozkładu .

E (y | x)

$E(y|x)$

p (y, x)

$p(y,x)$

Dikran Marsupial

100

@DikranMarsupial ma oczywiście rację, ale przyszło mi do głowy, że miło jest zilustrować jego punkt widzenia, zwłaszcza że ta obawa zdaje się często pojawiać. W szczególności reszty modelu regresji powinny być normalnie rozłożone, aby wartości p były prawidłowe. Jednak nawet jeśli reszty są normalnie rozłożone, nie gwarantuje to, że będzie (nie, że to ma znaczenie ...); to zależy od rozkładu . $Y$ $X$

Weźmy prosty przykład (który tworzę). Powiedzmy, że testujemy lek na izolowane nadciśnienie skurczowe (tj. Najwyższa wartość ciśnienia krwi jest zbyt wysoka). Przyjmijmy dalej, że skurczowe bp jest normalnie dystrybuowane w naszej populacji pacjentów, ze średnią 160 i SD wynoszącą 3, i że dla każdego mg leku, który pacjenci przyjmują każdego dnia, skurczowy bp spada o 1 mmHg. Innymi słowy, prawdziwa wartość wynosi 160, a to -1, a prawdziwa funkcja generowania danych to: $\beta_0$ $\beta_1$

B P_{s y s} = 160 - 1 \times daily drug dosage + ε where ε \sim N (0, 9)

$BP_{sys}=160-1\times\text{daily drug dosage}+\varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, 9)$ W naszym fikcyjnym badaniu 300 pacjentów jest losowo przydzielanych do przyjmowania 0 mg (placebo), 20 mg lub 40 mg tego nowego leku dziennie. (Zauważ, że nie jest zwykle dystrybuowany.) Następnie, po upływie odpowiedniego czasu, aby lek zaczął działać, nasze dane mogą wyglądać następująco:

X

$X$

wprowadź opis zdjęcia tutaj

(Drgałem dawki, aby punkty nie nakładały się tak bardzo, że trudno je było rozróżnić.) Teraz sprawdźmy rozkłady (tj. Rozkład marginalny / oryginalny) i reszty: $Y$

wprowadź opis zdjęcia tutaj

Wykresy qq pokazują nam, że nie jest wcale normalne, ale reszty są w miarę normalne. Wykresy gęstości jądra dają nam bardziej intuicyjnie dostępny obraz rozkładów. Oczywiste jest, że jest trójmodalny , podczas gdy reszty wyglądają podobnie do rozkładu normalnego. $Y$ $Y$

Ale co z dopasowanym modelem regresji, jaki jest efekt nietypowych i (ale normalnych reszt)? Aby odpowiedzieć na to pytanie, musimy określić, czym moglibyśmy się martwić w związku z typową wydajnością modelu regresji w takich sytuacjach. Pierwszą kwestią jest, czy bety są przeciętne, prawda? (Oczywiście będą się one odbijać, ale na dłuższą metę, czy rozkłady prób beta są skoncentrowane na prawdziwych wartościach?) To jest pytanie o stronniczość . Inną kwestią jest to, czy możemy ufać otrzymanym wartościom p? To znaczy, gdy prawdziwa hipoteza zerowa wynosi $Y$ $X$ $p<.05$ tylko 5% czasu? Aby ustalić te rzeczy, możemy symulować dane z powyższego procesu generowania danych i równoległego przypadku, w którym lek nie ma wpływu, wiele razy. Następnie możemy wykreślić rozkłady próbkowania i sprawdzić, czy są wyśrodkowane na prawdziwej wartości, a także sprawdzić, jak często związek był „znaczący” w przypadku zerowym: $\beta_1$

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532

wprowadź opis zdjęcia tutaj

Te wyniki pokazują, że wszystko działa dobrze.

Nie będę przechodził przez ruchy, ale gdyby był normalnie rozłożony, w innym przypadku z tą samą konfiguracją, pierwotny / krańcowy rozkład byłby normalnie rozłożony tak samo jak reszty (chociaż z większym SD). Nie zilustrowałem również efektów wypaczonego rozkładu (co było impulsem do postawienia tego pytania), ale punkt @ DikranMarsupial jest w tym przypadku równie ważny i można go zilustrować podobnie. $X$ $Y$ $X$

gung
źródło

Czy więc założenie, że reszty są normalnie rozłożone, służy tylko poprawności wartości p? Dlaczego wartości p mogą pójść źle, jeśli wartość rezydualna nie jest normalna?

awokado

@loganecolss, to może być lepsze jako nowe pytanie. W każdym razie tak , musi to zrobić w / czy wartości p są prawidłowe. Jeśli twoje resztki są wystarczająco nienormalne, a twój N jest niski, wówczas rozkład próbkowania będzie się różnił od sposobu teoretycznego. Ponieważ wartość p jest wartością tego rozkładu próbkowania poza statystyką testową, wartość p będzie błędna.

gung

W dopasowaniu modelu regresji powinniśmy sprawdzić normalność odpowiedzi na każdym poziomie , ale nie zbiorczo jako całość, ponieważ jest to bez znaczenia dla tego celu . Jeśli naprawdę musisz sprawdzić normalność , sprawdź ją dla każdego poziomu $X$ $Y$ $X$

Dovini Jayasinghe
źródło

Krańcowy rozkład odpowiedzi wcale nie jest „bez znaczenia”; jest to rozkład krańcowy odpowiedzi (i często powinien sugerować modele inne niż regresja zwykła z normalnymi błędami). Masz rację, podkreślając, że dystrybucje warunkowe są ważne, gdy zajmiemy się danym modelem, ale nie dodaje to pomoc w istniejących doskonałych odpowiedziach.

Nick Cox