Mam pewne dane (158 przypadków), które pochodzą z odpowiedzi w skali Likerta na 21 pozycji kwestionariusza. Naprawdę chcę / muszę przeprowadzić analizę regresji, aby zobaczyć, które pozycje w kwestionariuszu przewidują odpowiedź na ogólny element (zadowolenie). Odpowiedzi nie są normalnie dystrybuowane (zgodnie z testami KS) i przekształciłem je pod każdym względem, jaki mogę sobie wyobrazić (odwrotny, log, log10, sqrt, kwadrat) i uparcie odmawia normalnej dystrybucji. Wykres resztkowy wygląda wszędzie, więc uważam, że naprawdę nie jest uzasadnione wykonanie regresji liniowej i udawanie, że zachowuje się normalnie (nie jest to również rozkład Poissona). Myślę, że dzieje się tak, ponieważ odpowiedzi są bardzo ściśle zgrupowane (średnia wynosi 3,91, 95% CI 3,88 do 3,95).
Tak więc myślę, że albo potrzebuję nowego sposobu transformacji danych, albo jakiejś regresji nieparametrycznej, ale nie wiem, co mogę zrobić w SPSS.
źródło
Odpowiedzi:
Nie trzeba zakładać rozkładów normalnych, aby wykonać regresję. Regresja metodą najmniejszych kwadratów jest NIEBIESKIM estymatorem (najlepszy liniowy, bezstronny estymator) niezależnie od rozkładów. Zobacz twierdzenie Gaussa-Markowa (np. Wikipedia) Rozkład normalny służy jedynie do wykazania, że estymator jest również estymatorem maksymalnego prawdopodobieństwa. Jest powszechnym nieporozumieniem, że OLS w jakiś sposób zakłada normalnie dystrybuowane dane. To nie. Jest to znacznie bardziej ogólne.
źródło
Zamiast polegać na teście normalności reszt, spróbuj ocenić normalność za pomocą racjonalnego osądu. Testy normalności nie mówią, że twoje dane są normalne, tylko że tak nie jest. Ale biorąc pod uwagę, że dane są próbką, możesz być całkiem pewien, że nie są normalne bez testu. Wymaganie jest w przybliżeniu normalne. Test nie może ci tego powiedzieć. Testy również stają się bardzo czułe przy dużych N lub poważniej, różnią się czułością z N. Twoje N znajduje się w tym zakresie, w którym czułość zaczyna być wysoka. Jeśli uruchomisz następującą symulację w R kilka razy i spojrzysz na wykresy, zobaczysz, że test normalności mówi „nie normalny” na dobrej liczbie rozkładów normalnych.
Mam nadzieję, że po przejściu symulacji można zobaczyć, że test normalności może łatwo odrzucić dość normalnie wyglądające dane, a dane z rozkładu normalnego mogą wyglądać dość dalekie od normalnych. Jeśli chcesz zobaczyć ekstremalną wartość tej próby
n <- 1000
. Wszystkie rozkłady będą wyglądać normalnie, ale nadal nie powiedzie się test z mniej więcej taką samą szybkością jak niższe wartości N. I odwrotnie, przy niskich rozkładach N, które przejdą test, mogą wyglądać bardzo dalekie od normalnych.Standardowy wykres resztkowy w SPSS nie jest szczególnie przydatny do oceny normalności. Widać wartości odstające, zasięg, dobro dopasowania, a może nawet dźwignię. Trudno jednak wyprowadzić z tego normalność. Wypróbuj następującą symulację porównując histogramy, normalne wykresy kwantylowo-kwantylowe i wykresy resztkowe.
Niezwykle trudno jest odróżnić normalność lub wiele innych rzeczy od ostatniego wątku, a zatem nie jest to straszna diagnoza normalności.
Podsumowując, ogólnie zaleca się, aby nie polegać na testach normalności, ale raczej na wykresach diagnostycznych reszt. Bez tych wykresów lub rzeczywistych wartości w twoim pytaniu bardzo trudno jest każdemu udzielić rzetelnej porady na temat potrzebnych danych w zakresie analizy lub transformacji. Aby uzyskać najlepszą pomoc, podaj nieprzetworzone dane.
źródło
Po pierwsze, regresja OLS nie przyjmuje żadnych założeń dotyczących danych, przyjmuje założenia dotyczące błędów, oszacowane przez wartości resztkowe.
Po drugie, moim zdaniem niewłaściwe podejście to przekształcanie danych w celu dopasowania modelu. Chcesz, aby Twój model pasował do Twojego problemu, a nie na odwrót. W dawnych czasach regresja OLS była „jedyną grą w mieście” z powodu powolnych komputerów, ale nie jest to już prawdą.
Po trzecie, nie używam SPSS, więc nie mogę nic na to poradzić, ale byłbym zaskoczony, gdyby nie oferował on niektórych form regresji nieliniowej. Niektóre możliwości to regresja kwantowa, drzewa regresji i solidna regresja.
Po czwarte, martwię się trochę o twoje oświadczenie:
Jeśli elementy zostały zsumowane lub w jakiś sposób połączone w celu uzyskania ogólnej skali, regresja nie jest właściwym podejściem. Prawdopodobnie potrzebujesz analizy czynnikowej.
źródło
Zasadniczo istnieją dwa możliwe podejścia do twojego problemu: jedno jest dobrze uzasadnione z teoretycznego punktu widzenia, ale potencjalnie niemożliwe do wdrożenia w praktyce, podczas gdy drugie jest bardziej heurystyczne.
Teoretycznie optymalnym podejściem (z którego prawdopodobnie nie będziesz w stanie niestety skorzystać) jest obliczenie regresji poprzez powrót do bezpośredniego zastosowania tak zwanej metody maksymalnego prawdopodobieństwa. Związek między estymacją maksymalnego prawdopodobieństwa (która jest tak naprawdę poprzednią i bardziej podstawową koncepcją matematyczną) a regresją zwykłych metod najmniejszych kwadratów (OLS) (zwykłe podejście, ważne dla konkretnego, ale niezwykle częstego przypadku, w którym wszystkie zmienne obserwacyjne są niezależnie losowe i rozkład normalny ) jest opisany w wielu podręcznikach dotyczących statystyki; jedną z dyskusji, która szczególnie mi się podoba, jest sekcja 7.1 „Analizy danych statystycznych” autorstwa Glen Cowan. W przypadkach, w których zmienne obserwacyjne zwykle nie są rozmieszczone,
W tym przypadku, ponieważ wydaje się, że tak naprawdę nie znasz rozkładu leżącego u podstaw zmiennych obserwacyjnych (tj. Jedyną znaną na pewno rzeczą jest to, że zdecydowanie nie jest to gaussowski, ale nie taki, jaki jest w rzeczywistości), powyższe podejście wygrało pracuję dla ciebie. Zwykle, gdy OLS zawiedzie lub zwróci szalony wynik, dzieje się tak z powodu zbyt wielu punktów odstających. Punkty odstające, które faktycznie łamią założenie o normalnie rozłożonych zmiennych obserwacyjnych, wnoszą zbyt duże znaczenie do dopasowania, ponieważ punkty w OLS są ważone kwadratami ich odchylenia od krzywej regresji, a dla wartości odstających to odchylenie jest wielki. Typowym podejściem heurystycznym w tym przypadku jest opracowanie drobnych poprawek lub modyfikacji OLS, które powodują, że wkład z punktów odstających staje się nieakcentowany lub zważony, w stosunku do podstawowej metody OLS. Ogólnie są one znane jakosolidna regresja . Lista zawierająca przykłady konkretnych niezawodnych technik szacowania, które warto wypróbować, można znaleźć tutaj .
źródło