Kiedy stosować regresję nieparametryczną?

9

Używam PROC GLM w SAS, aby dopasować równanie regresji o następującej formie

Y=b0+b1X1+b2)X2)+b3)X3)+b4t

Wykres QQ powstałych czerwonych reszt wskazuje na odchylenie od normalności. Jakakolwiek transformacja nie jest przydatna w normalizacji reszt.Y

W tym momencie mogę bezpiecznie przejść do metod nieparametrycznych, takich jak PROC LOESS.

Użyłem już PROC LOESS, a dopasowanie wygląda lepiej niż PROC GLM. Ale nie mam dużej wiedzy na temat regresji nieparametrycznej. Nie wiem, kiedy wybrać regresję nieparametryczną zamiast regresji parametrycznej.

Czy ktoś może mi w tym pomóc?

Przejdę dalej i dodam kolejne pytanie. Poniżej znajduje się opis moich zmiennych w modelu. Czasami otrzymuję prognozowany ujemny koszt. To nie ma sensu. Jak mogę rozwiązać ten problem?

Y=koszty opieki medycznejX1=liczba zastrzykówX2)=liczba operacjiX3)=liczba terapii fizycznycht=czas
ann
źródło
2
Możesz oczywiście uniknąć przewidywania kosztów ujemnych, modelując dziennik: losol(Y)=b0+b1X1+b2)X2)+b3)X3)+b4t
Dirk Horsten

Odpowiedzi:

10

Przed spojrzeniem na wykresy QQ reszt, powinieneś ocenić jakość dopasowania, wykreślając reszty w stosunku do predyktorów w modelu (i ewentualnie także w stosunku do innych zmiennych, których nie użyłeś). Nieliniowość powinna pojawić się na tych wykresach. Jeśli efekt zmiennejx naprawdę jest liniowy, oczekujesz wykresu reszt przeciw x być „poziomym”, bez widocznej struktury:

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Oznacza to, że losowa pozioma „kropla” punktów, wyśrodkowana wokół linii res = 0.

Jeśli efekt jest nieliniowy, można spodziewać się pewnej krzywizny na tym wykresie. (i proszę zignoruj ​​wykresy QQ, dopóki nie uporządkujesz nieliniowości, używając wykresów jak wyżej!)

Powinieneś także pomyśleć o możliwych interakcjach (modelowanych zwykle terminami produktów), to znaczy, że wpływ jednej zmiennej zależy od poziomów drugiej (jeśli wszystkie trzy zmienne mają jednocześnie wysokie wartości, być może pokazuje to pewne szczególnie trudne pacjent? Jeśli tak, interakcje mogą być potrzebne).

Jeśli wybierasz model nieliniowy, po wypróbowaniu interakcji i przekształceń (próbowałeś log(Cost)?) Czy próbowałeś przekształcić Box-Cox? Ponieważ masz regresję wielokrotną, nie sądzę, że to loessjest to, czego potrzebujesz, powinieneś poszukać gam(uogólnione modele addytywne, SAS powinno to mieć, w R jest w pakiecie mgcv).

kjetil b halvorsen
źródło
1
Dzięki za cenne informacje. Próbowałem dziennika (kosztu) z regresją liniową, ale to niewiele pomogło. Dodam efekty interakcji i obserwuję, co się stanie. Znowu będę eksperymentować z transformacjami. Będę informować wszystkich o moich osiągnięciach i ustaleniach.
ann
6

MIŁOŚĆ zawsze zapewni lepsze dopasowanie niż regresja, chyba że dane naprawdę leżą wzdłuż linii prostej. LOESS jest lokalnie liniowym przybliżeniem, które ma na celu przekazywanie blisko danych. Te metody są w zasadzie badawcze. I chociaż niebezpiecznie jest ekstrapolować model liniowy poza granice dopasowania, ekstrapolacja byłaby nierozważna w przypadku LOESS.

Jeśli twój model daje ujemne koszty, to całkiem niezły znak, że regresja liniowa nie jest odpowiednia dla posiadanych zmiennych. Mówisz, że próbowałeś transformacji. Czy wziąłeś dziennik kosztów w stosunku do swoich predyktorów?

Z natury rzeczy jest mało prawdopodobne, aby istniał prosty związek między kosztem a wymienionymi zmiennymi. Czasami celem regresji liniowej jest po prostu wykazanie, że istnieje pewien rodzaj korelacji, a być może wybór rozsądnego zestawu predyktorów.

Placidia
źródło
1
Wspominanie, że koszty ujemne wskazują, że regresja liniowa może być niewłaściwa, ma sens. Będę kontynuować analizę i dodawać pewne interakcje. Dziękuję Ci.
ann
3

Brawo za wykonanie analizy resztkowej. Stawia Cię o krok przed typowym analitykiem. (Twój opis modelu jest jednak niewystarczający do opisania struktury błędu.) Powinieneś wziąć pod uwagę transformacje X, a także patrzeć na transformacje Y. Zdaję sobie sprawę, że SAS jest w tyle za modelowaniem R z dopasowaniami spline, ale rozumiem, że ostatnie wersje oferowały taką pojemność. Rozważ dodanie ograniczonych dopasowań splajnu sześciennego dla haseł X. Jako odniesienie trudno jest pokonać tekst Franka Harrella „Strategie modelowania regresji”. Ma solidne argumenty statystyczne za tym podejściem. Jest to podejście parametryczne, które pozwala na odkrycie struktury danych, które w innym przypadku zostałyby pominięte.

DWin
źródło
Dzięki za uznanie DWin. Właśnie skończyłem szkołę i jest to moja pierwsza praca jako analityka. Przypadkowo ten rodzaj analizy jest również nowy w firmie. Próbuję więc znaleźć analizę, która nie jest całkowicie nonsensowna. Przyjmę twoją sugestię i spróbuję transformacji obuY i Xzmienne. Przejdę również przez odniesienie. Właśnie znalazłem wersję pdf online. Dzięki za wkład.
ann
Coś jest nie tak z przekształcaniem logów i wyjściami, które intuicyjnie zależą liniowo. Jeśli modelujeszlosol(Y)=b0+b1losol(X1)+b2)losol(X2)) gdzie X1 są zastrzyki w prawe ramię i X2)są zastrzyki w lewe ramię, przewidujesz zupełnie inne koszty dla kogoś, kto ma wszystkie zastrzyki w tym samym ramieniu i kogoś, kto ma połowę z każdej strony
Dirk Horsten
Twój komentarz wydaje się raczej styczny do mojej odpowiedzi (i do pytania, ponieważ nigdy nie wspomniano o podziale zastrzyków przez ramię). Mam nadzieję, że nie uważasz, że funkcje splajnu są równoważne transformacjom logów. Transformacja logarytmu Y tworzy model, w którym model jest multiplikatywny w predyktorach po przekształceniu z powrotem w skalę kosztów. To dość duża zmiana, której problemów nie opisałeś odpowiednio pytającemu.
DW
2

Myślę, że Kjetil dał ci kilka dobrych sugestii. Dodałbym, że nietypowe reszty nie oznaczają, że musisz przejść od regresji liniowej lub nieliniowej do regresji nieparametrycznej. Przechodząc do regresji nieparametrycznej rezygnujesz ze struktury formy funkcjonalnej. Istnieje solidna regresja alternatywna wobec regresji OLS, do której możesz przejść jako pierwszy. Następnie uogólnione modele liniowe i uogólnione modele addytywne, jeśli konieczne są dalsze kroki. Moim zdaniem MIŁOŚĆ powinna być ostatnią deską ratunku. Myślę, że zgadzam się z tym w sprawie Kjetil.

Michael R. Chernick
źródło