Jak przeprowadzić regresję danych nienormalnych, które po przekształceniu pozostają nienormalne?

15

Mam pewne dane (158 przypadków), które pochodzą z odpowiedzi w skali Likerta na 21 pozycji kwestionariusza. Naprawdę chcę / muszę przeprowadzić analizę regresji, aby zobaczyć, które pozycje w kwestionariuszu przewidują odpowiedź na ogólny element (zadowolenie). Odpowiedzi nie są normalnie dystrybuowane (zgodnie z testami KS) i przekształciłem je pod każdym względem, jaki mogę sobie wyobrazić (odwrotny, log, log10, sqrt, kwadrat) i uparcie odmawia normalnej dystrybucji. Wykres resztkowy wygląda wszędzie, więc uważam, że naprawdę nie jest uzasadnione wykonanie regresji liniowej i udawanie, że zachowuje się normalnie (nie jest to również rozkład Poissona). Myślę, że dzieje się tak, ponieważ odpowiedzi są bardzo ściśle zgrupowane (średnia wynosi 3,91, 95% CI 3,88 do 3,95).

Tak więc myślę, że albo potrzebuję nowego sposobu transformacji danych, albo jakiejś regresji nieparametrycznej, ale nie wiem, co mogę zrobić w SPSS.

Rachel S.
źródło
1
Rozważ transformację Box-Coxa ( en.wikipedia.org/wiki/... ). Pomocne może być dodanie resztki wykresu do pytania.
M. Berk,
3
Tak, pokaż nam swoją działkę resztkową. może także wykres qq.
David Marx,
5
Jeśli twoje wartości są dyskretne, szczególnie jeśli są zgniecione na jednym końcu, może nie być transformacji, która sprawi, że wynik będzie mniej więcej normalny. Ale formalne testy hipotezy normalności nie odpowiadają na właściwe pytanie i powodują, że twoje inne procedury, które są podejmowane, zależą od tego, czy odrzucisz normalność, aby nie miały już swoich nominalnych właściwości.
Glen_b
1
regresja logistyczna proporcjonalnych szans prawdopodobnie byłaby rozsądnym podejściem do tego pytania, ale nie wiem, czy jest dostępna w SPSS.
Ben Bolker,
3
Nie jestem przekonany, że regresja jest właściwym podejściem, i to nie z powodu obaw o normalność. Twoje odpowiedzi na pytania zawarte w kwestionariuszu mogą nawet nie być kardynalne. Na przykład, jeśli zapytasz faceta „Czy jesteś szczęśliwy?” I uzyskasz odpowiedź 3, podczas gdy w zeszłym miesiącu było to 4, czy oznacza to, że jest o 25% mniej szczęśliwy? Najprawdopodobniej nie. Więc zanim nawet zaczniesz myśleć o normalności, musisz dowiedzieć się, czy masz do czynienia z liczbami głównymi, a nie tylko porządkowymi. Istnieją specjalne sposoby radzenia sobie z myślami, takimi jak ankiety, a regresja nie jest domyślnym wyborem. Najpierw musisz pokazać, że jest odpowiednia.
Aksakal

Odpowiedzi:

32

Nie trzeba zakładać rozkładów normalnych, aby wykonać regresję. Regresja metodą najmniejszych kwadratów jest NIEBIESKIM estymatorem (najlepszy liniowy, bezstronny estymator) niezależnie od rozkładów. Zobacz twierdzenie Gaussa-Markowa (np. Wikipedia) Rozkład normalny służy jedynie do wykazania, że ​​estymator jest również estymatorem maksymalnego prawdopodobieństwa. Jest powszechnym nieporozumieniem, że OLS w jakiś sposób zakłada normalnie dystrybuowane dane. To nie. Jest to znacznie bardziej ogólne.

Dave31415
źródło
2
To prawda. Wiele osób często ignoruje ten FAKT.
Repmat,
zgadzam się z @Repmat. Nie jestem pewien, czy kiedykolwiek zdałem test normalności ... ale moje modele działają.
HEITZ
5

Zamiast polegać na teście normalności reszt, spróbuj ocenić normalność za pomocą racjonalnego osądu. Testy normalności nie mówią, że twoje dane są normalne, tylko że tak nie jest. Ale biorąc pod uwagę, że dane są próbką, możesz być całkiem pewien, że nie są normalne bez testu. Wymaganie jest w przybliżeniu normalne. Test nie może ci tego powiedzieć. Testy również stają się bardzo czułe przy dużych N lub poważniej, różnią się czułością z N. Twoje N znajduje się w tym zakresie, w którym czułość zaczyna być wysoka. Jeśli uruchomisz następującą symulację w R kilka razy i spojrzysz na wykresy, zobaczysz, że test normalności mówi „nie normalny” na dobrej liczbie rozkładów normalnych.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Mam nadzieję, że po przejściu symulacji można zobaczyć, że test normalności może łatwo odrzucić dość normalnie wyglądające dane, a dane z rozkładu normalnego mogą wyglądać dość dalekie od normalnych. Jeśli chcesz zobaczyć ekstremalną wartość tej próby n <- 1000. Wszystkie rozkłady będą wyglądać normalnie, ale nadal nie powiedzie się test z mniej więcej taką samą szybkością jak niższe wartości N. I odwrotnie, przy niskich rozkładach N, które przejdą test, mogą wyglądać bardzo dalekie od normalnych.

Standardowy wykres resztkowy w SPSS nie jest szczególnie przydatny do oceny normalności. Widać wartości odstające, zasięg, dobro dopasowania, a może nawet dźwignię. Trudno jednak wyprowadzić z tego normalność. Wypróbuj następującą symulację porównując histogramy, normalne wykresy kwantylowo-kwantylowe i wykresy resztkowe.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Niezwykle trudno jest odróżnić normalność lub wiele innych rzeczy od ostatniego wątku, a zatem nie jest to straszna diagnoza normalności.

Podsumowując, ogólnie zaleca się, aby nie polegać na testach normalności, ale raczej na wykresach diagnostycznych reszt. Bez tych wykresów lub rzeczywistych wartości w twoim pytaniu bardzo trudno jest każdemu udzielić rzetelnej porady na temat potrzebnych danych w zakresie analizy lub transformacji. Aby uzyskać najlepszą pomoc, podaj nieprzetworzone dane.

Jan
źródło
Cześć. Dziękuję wszystkim za sugestie. W końcu spojrzałem na moje resztki zgodnie z sugestią i użyłem powyższej składni z moimi zmiennymi. Moje dane nie były tak katastrofalnie nienormalne, jak myślałem, więc użyłem parametrycznych regresji liniowych z większą pewnością siebie i czystym sumieniem! Dzięki jeszcze raz.
Rachel S
4

Po pierwsze, regresja OLS nie przyjmuje żadnych założeń dotyczących danych, przyjmuje założenia dotyczące błędów, oszacowane przez wartości resztkowe.

Po drugie, moim zdaniem niewłaściwe podejście to przekształcanie danych w celu dopasowania modelu. Chcesz, aby Twój model pasował do Twojego problemu, a nie na odwrót. W dawnych czasach regresja OLS była „jedyną grą w mieście” z powodu powolnych komputerów, ale nie jest to już prawdą.

Po trzecie, nie używam SPSS, więc nie mogę nic na to poradzić, ale byłbym zaskoczony, gdyby nie oferował on niektórych form regresji nieliniowej. Niektóre możliwości to regresja kwantowa, drzewa regresji i solidna regresja.

Po czwarte, martwię się trochę o twoje oświadczenie:

Naprawdę chcę / muszę przeprowadzić analizę regresji, aby zobaczyć, które pozycje w kwestionariuszu przewidują odpowiedź na ogólny element (satysfakcja)

Jeśli elementy zostały zsumowane lub w jakiś sposób połączone w celu uzyskania ogólnej skali, regresja nie jest właściwym podejściem. Prawdopodobnie potrzebujesz analizy czynnikowej.

Peter Flom - Przywróć Monikę
źródło
zasugerowałeś, że może on chcieć analizy czynnikowej, ale czy analiza czynnikowa nie ma wpływu, jeśli dane nie są normalnie dystrybuowane?
usprawnienie
Możesz przeprowadzić analizę czynnikową danych, które nawet nie są ciągłe. Ale to osobna dyskusja - i została tutaj omówiona.
Peter Flom - Przywróć Monikę
1
Cześć Peter, doceniam twoją wiedzę i bardzo cenię twoje rady. Dzięki za poświęcenie czasu na odpowiedź. Żeby wyjaśnić, wiem, że można wykonać FA na nietypowo dystrybuowanych pozycjach (jak również dyskusję na temat normalności reszt). Chciałem tylko dowiedzieć się (od kogoś z twoją wiedzą), czy OP nie wpadłby w ten sam dylemat. Ale zakładam, że już odpowiedziałeś :)
usprawnij
1

Zasadniczo istnieją dwa możliwe podejścia do twojego problemu: jedno jest dobrze uzasadnione z teoretycznego punktu widzenia, ale potencjalnie niemożliwe do wdrożenia w praktyce, podczas gdy drugie jest bardziej heurystyczne.

Teoretycznie optymalnym podejściem (z którego prawdopodobnie nie będziesz w stanie niestety skorzystać) jest obliczenie regresji poprzez powrót do bezpośredniego zastosowania tak zwanej metody maksymalnego prawdopodobieństwa. Związek między estymacją maksymalnego prawdopodobieństwa (która jest tak naprawdę poprzednią i bardziej podstawową koncepcją matematyczną) a regresją zwykłych metod najmniejszych kwadratów (OLS) (zwykłe podejście, ważne dla konkretnego, ale niezwykle częstego przypadku, w którym wszystkie zmienne obserwacyjne są niezależnie losowe i rozkład normalny ) jest opisany w wielu podręcznikach dotyczących statystyki; jedną z dyskusji, która szczególnie mi się podoba, jest sekcja 7.1 „Analizy danych statystycznych” autorstwa Glen Cowan. W przypadkach, w których zmienne obserwacyjne zwykle nie są rozmieszczone,

W tym przypadku, ponieważ wydaje się, że tak naprawdę nie znasz rozkładu leżącego u podstaw zmiennych obserwacyjnych (tj. Jedyną znaną na pewno rzeczą jest to, że zdecydowanie nie jest to gaussowski, ale nie taki, jaki jest w rzeczywistości), powyższe podejście wygrało pracuję dla ciebie. Zwykle, gdy OLS zawiedzie lub zwróci szalony wynik, dzieje się tak z powodu zbyt wielu punktów odstających. Punkty odstające, które faktycznie łamią założenie o normalnie rozłożonych zmiennych obserwacyjnych, wnoszą zbyt duże znaczenie do dopasowania, ponieważ punkty w OLS są ważone kwadratami ich odchylenia od krzywej regresji, a dla wartości odstających to odchylenie jest wielki. Typowym podejściem heurystycznym w tym przypadku jest opracowanie drobnych poprawek lub modyfikacji OLS, które powodują, że wkład z punktów odstających staje się nieakcentowany lub zważony, w stosunku do podstawowej metody OLS. Ogólnie są one znane jakosolidna regresja . Lista zawierająca przykłady konkretnych niezawodnych technik szacowania, które warto wypróbować, można znaleźć tutaj .

stachyra
źródło