Używam PROC GLM w SAS, aby dopasować równanie regresji o następującej formie
Wykres QQ powstałych czerwonych reszt wskazuje na odchylenie od normalności. Jakakolwiek transformacja nie jest przydatna w normalizacji reszt.
W tym momencie mogę bezpiecznie przejść do metod nieparametrycznych, takich jak PROC LOESS.
Użyłem już PROC LOESS, a dopasowanie wygląda lepiej niż PROC GLM. Ale nie mam dużej wiedzy na temat regresji nieparametrycznej. Nie wiem, kiedy wybrać regresję nieparametryczną zamiast regresji parametrycznej.
Czy ktoś może mi w tym pomóc?
Przejdę dalej i dodam kolejne pytanie. Poniżej znajduje się opis moich zmiennych w modelu. Czasami otrzymuję prognozowany ujemny koszt. To nie ma sensu. Jak mogę rozwiązać ten problem?
Odpowiedzi:
Przed spojrzeniem na wykresy QQ reszt, powinieneś ocenić jakość dopasowania, wykreślając reszty w stosunku do predyktorów w modelu (i ewentualnie także w stosunku do innych zmiennych, których nie użyłeś). Nieliniowość powinna pojawić się na tych wykresach. Jeśli efekt zmiennejx naprawdę jest liniowy, oczekujesz wykresu reszt przeciw x być „poziomym”, bez widocznej struktury:
Oznacza to, że losowa pozioma „kropla” punktów, wyśrodkowana wokół linii res = 0.
Jeśli efekt jest nieliniowy, można spodziewać się pewnej krzywizny na tym wykresie. (i proszę zignoruj wykresy QQ, dopóki nie uporządkujesz nieliniowości, używając wykresów jak wyżej!)
Powinieneś także pomyśleć o możliwych interakcjach (modelowanych zwykle terminami produktów), to znaczy, że wpływ jednej zmiennej zależy od poziomów drugiej (jeśli wszystkie trzy zmienne mają jednocześnie wysokie wartości, być może pokazuje to pewne szczególnie trudne pacjent? Jeśli tak, interakcje mogą być potrzebne).
Jeśli wybierasz model nieliniowy, po wypróbowaniu interakcji i przekształceń (próbowałeś
log(Cost)
?) Czy próbowałeś przekształcić Box-Cox? Ponieważ masz regresję wielokrotną, nie sądzę, że toloess
jest to, czego potrzebujesz, powinieneś poszukaćgam
(uogólnione modele addytywne, SAS powinno to mieć, w R jest w pakieciemgcv
).źródło
MIŁOŚĆ zawsze zapewni lepsze dopasowanie niż regresja, chyba że dane naprawdę leżą wzdłuż linii prostej. LOESS jest lokalnie liniowym przybliżeniem, które ma na celu przekazywanie blisko danych. Te metody są w zasadzie badawcze. I chociaż niebezpiecznie jest ekstrapolować model liniowy poza granice dopasowania, ekstrapolacja byłaby nierozważna w przypadku LOESS.
Jeśli twój model daje ujemne koszty, to całkiem niezły znak, że regresja liniowa nie jest odpowiednia dla posiadanych zmiennych. Mówisz, że próbowałeś transformacji. Czy wziąłeś dziennik kosztów w stosunku do swoich predyktorów?
Z natury rzeczy jest mało prawdopodobne, aby istniał prosty związek między kosztem a wymienionymi zmiennymi. Czasami celem regresji liniowej jest po prostu wykazanie, że istnieje pewien rodzaj korelacji, a być może wybór rozsądnego zestawu predyktorów.
źródło
Brawo za wykonanie analizy resztkowej. Stawia Cię o krok przed typowym analitykiem. (Twój opis modelu jest jednak niewystarczający do opisania struktury błędu.) Powinieneś wziąć pod uwagę transformacje X, a także patrzeć na transformacje Y. Zdaję sobie sprawę, że SAS jest w tyle za modelowaniem R z dopasowaniami spline, ale rozumiem, że ostatnie wersje oferowały taką pojemność. Rozważ dodanie ograniczonych dopasowań splajnu sześciennego dla haseł X. Jako odniesienie trudno jest pokonać tekst Franka Harrella „Strategie modelowania regresji”. Ma solidne argumenty statystyczne za tym podejściem. Jest to podejście parametryczne, które pozwala na odkrycie struktury danych, które w innym przypadku zostałyby pominięte.
źródło
Myślę, że Kjetil dał ci kilka dobrych sugestii. Dodałbym, że nietypowe reszty nie oznaczają, że musisz przejść od regresji liniowej lub nieliniowej do regresji nieparametrycznej. Przechodząc do regresji nieparametrycznej rezygnujesz ze struktury formy funkcjonalnej. Istnieje solidna regresja alternatywna wobec regresji OLS, do której możesz przejść jako pierwszy. Następnie uogólnione modele liniowe i uogólnione modele addytywne, jeśli konieczne są dalsze kroki. Moim zdaniem MIŁOŚĆ powinna być ostatnią deską ratunku. Myślę, że zgadzam się z tym w sprawie Kjetil.
źródło