Jak wybrać między zastosowaniem modelu regresji liniowej a modelem regresji nieliniowej?
Moim celem jest przewidzenie Y.
W przypadku prostych i zbiorze mogłem zdecydować, które regresja model powinien być stosowany przez wykreślenie wykres punktowy.y
W przypadku wielu wariantów, takich jak i . Jak zdecydować, który model regresji należy zastosować? To znaczy, jak zdecyduję się na prosty model liniowy lub nieliniowy, taki jak kwadratowy, sześcienny itp. y
Czy jest jakaś technika lub podejście statystyczne lub wykresy graficzne, aby wnioskować i zdecydować, który model regresji należy zastosować?
Odpowiedzi:
Jest to dziedzina statystyki zwana wyborem modelu. Przeprowadzono wiele badań w tej dziedzinie i nie ma jednoznacznej i łatwej odpowiedzi.
Załóżmy, że masz i i chcesz wiedzieć, czy powinieneś uwzględnić w modelu wyrażenie . W takiej sytuacji Twój bardziej oszczędny model jest zagnieżdżony w bardziej złożonym modelu. Innymi słowy, zmienne i (model oszczędny) są podzbiorem zmiennych i (model złożony). W budowaniu modeli masz (przynajmniej) jeden z następujących dwóch głównych celów:X1,X2 X3 X23 X1,X2 X3 X1,X2,X3 X23
Jeśli Twoim celem jest numer 1, polecam test współczynnika wiarygodności (LRT). LRT jest używany, gdy masz modele zagnieżdżone i chcesz wiedzieć, „czy dane znacznie częściej pochodzą z modelu złożonego niż z modelu oszczędnego?”. Dzięki temu dowiesz się, który model lepiej wyjaśnia związek między twoimi danymi.
Jeśli twoim celem jest numer 2, zalecam jakąś technikę weryfikacji krzyżowej (CV) krotnie, CV z pominięciem jednego, CV z treningu testowego) w zależności od wielkości twoich danych. Podsumowując, te metody budują model na podzbiorze danych i przewidują wyniki na pozostałych danych. Wybierz model, który najlepiej prognozuje pozostałe dane.k
źródło
Kiedy szukam „liniowego lub nieliniowego modelu regresji”, otrzymuję linki prowadzące do tej książki: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Ta książka nie jest interesująca i nie nie ufaj temu w 100% (z pewnych powodów).
Znalazłem również ten artykuł: http://hunch.net/?p=524 z tytułem: Prawie wszystkie naturalne problemy wymagają nieliniowości
Znalazłem również podobne pytanie z całkiem dobrym wyjaśnieniem: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro
Z mojego doświadczenia wynika, że jeśli nie wiesz, którego modelu użyć, użyj obu i wypróbuj inne funkcje.
źródło
Jak twierdzisz, modele liniowe są zwykle prostsze niż modele nieliniowe, co oznacza, że działają szybciej (budowanie i przewidywanie), są łatwiejsze do interpretacji i wyjaśnienia, i zwykle są proste w pomiarach błędów. Dlatego celem jest sprawdzenie, czy założenia regresji liniowej są zgodne z Twoimi danymi (jeśli nie obsługujesz liniowej, to po prostu przejdź do nieliniowej). Zwykle powtarzasz wykres pojedynczej zmiennej ze wszystkimi zmiennymi indywidualnie, utrzymując wszystkie pozostałe zmienne na stałym poziomie.
Być może, co ważniejsze, chcesz wiedzieć, czy możesz zastosować transformację, interakcję zmiennej lub zmienną fikcyjną, aby przenieść dane do przestrzeni liniowej. Jeśli jesteś w stanie zweryfikować założenia lub znasz swoje dane wystarczająco dobrze, aby zastosować dobrze zmotywowane lub w inny sposób inteligentnie poinformowane transformacje lub modyfikacje, to chcesz kontynuować tę transformację i zastosować regresję liniową. Po uzyskaniu wartości resztkowych można wykreślić je w stosunku do wartości przewidywanych lub zmiennych niezależnych, aby dodatkowo zdecydować, czy należy przejść do metod nieliniowych.
W Duke istnieje doskonały podział założeń regresji liniowej . Wymieniono cztery główne założenia, a każde z nich jest podzielone na wpływ na model, sposób diagnozowania go w danych oraz potencjalne sposoby „naprawy” (tj. Przekształcenia lub dodania do) danych, aby założenie mogło zostać przyjęte. Oto mały fragment z góry podsumowujący cztery założone założenia, ale powinieneś tam pójść i przeczytać opisy awarii.
źródło