Mam dziwne pytanie. Załóżmy, że masz małą próbkę, w której zmienna zależna, którą zamierzasz przeanalizować za pomocą prostego modelu liniowego, jest mocno pochylona. Zatem zakładasz, że nie jest normalnie dystrybuowany, ponieważ spowodowałoby to normalną dystrybucję . Ale podczas obliczania wykresu QQ-Normal istnieją dowody, że reszty są zwykle rozkładane. Zatem każdy może założyć, że termin błędu jest zwykle rozłożony, chociaż nie jest. Co to znaczy, że termin błędu wydaje się być normalnie rozłożony, nie?y pręd Y
źródło
@DikranMarsupial ma oczywiście rację, ale przyszło mi do głowy, że miło jest zilustrować jego punkt widzenia, zwłaszcza że ta obawa zdaje się często pojawiać. W szczególności reszty modelu regresji powinny być normalnie rozłożone, aby wartości p były prawidłowe. Jednak nawet jeśli reszty są normalnie rozłożone, nie gwarantuje to, że będzie (nie, że to ma znaczenie ...); to zależy od rozkładu . XY X
Weźmy prosty przykład (który tworzę). Powiedzmy, że testujemy lek na izolowane nadciśnienie skurczowe (tj. Najwyższa wartość ciśnienia krwi jest zbyt wysoka). Przyjmijmy dalej, że skurczowe bp jest normalnie dystrybuowane w naszej populacji pacjentów, ze średnią 160 i SD wynoszącą 3, i że dla każdego mg leku, który pacjenci przyjmują każdego dnia, skurczowy bp spada o 1 mmHg. Innymi słowy, prawdziwa wartość wynosi 160, a to -1, a prawdziwa funkcja generowania danych to: β 1 B P s y y = 160 - 1 x dziennie dawkowania leku + εβ0 β1 X
(Drgałem dawki, aby punkty nie nakładały się tak bardzo, że trudno je było rozróżnić.) Teraz sprawdźmy rozkłady (tj. Rozkład marginalny / oryginalny) i reszty:Y
Wykresy qq pokazują nam, że nie jest wcale normalne, ale reszty są w miarę normalne. Wykresy gęstości jądra dają nam bardziej intuicyjnie dostępny obraz rozkładów. Oczywiste jest, że jest trójmodalny , podczas gdy reszty wyglądają podobnie do rozkładu normalnego. YY Y
Ale co z dopasowanym modelem regresji, jaki jest efekt nietypowych i (ale normalnych reszt)? Aby odpowiedzieć na to pytanie, musimy określić, czym moglibyśmy się martwić w związku z typową wydajnością modelu regresji w takich sytuacjach. Pierwszą kwestią jest, czy bety są przeciętne, prawda? (Oczywiście będą się one odbijać, ale na dłuższą metę, czy rozkłady prób beta są skoncentrowane na prawdziwych wartościach?) To jest pytanie o stronniczość . Inną kwestią jest to, czy możemy ufać otrzymanym wartościom p? To znaczy, gdy prawdziwa hipoteza zerowa wynosiX p < 0,05 β 1Y X p<.05 tylko 5% czasu? Aby ustalić te rzeczy, możemy symulować dane z powyższego procesu generowania danych i równoległego przypadku, w którym lek nie ma wpływu, wiele razy. Następnie możemy wykreślić rozkłady próbkowania i sprawdzić, czy są wyśrodkowane na prawdziwej wartości, a także sprawdzić, jak często związek był „znaczący” w przypadku zerowym: β1
Te wyniki pokazują, że wszystko działa dobrze.
Nie będę przechodził przez ruchy, ale gdyby był normalnie rozłożony, w innym przypadku z tą samą konfiguracją, pierwotny / krańcowy rozkład byłby normalnie rozłożony tak samo jak reszty (chociaż z większym SD). Nie zilustrowałem również efektów wypaczonego rozkładu (co było impulsem do postawienia tego pytania), ale punkt @ DikranMarsupial jest w tym przypadku równie ważny i można go zilustrować podobnie.Y XX Y X
źródło
W dopasowaniu modelu regresji powinniśmy sprawdzić normalność odpowiedzi na każdym poziomie , ale nie zbiorczo jako całość, ponieważ jest to bez znaczenia dla tego celu . Jeśli naprawdę musisz sprawdzić normalność , sprawdź ją dla każdego poziomuX Y XY X
źródło