Wybór między modelem regresji liniowej lub modelem regresji nieliniowej

Jak wybrać między zastosowaniem modelu regresji liniowej a modelem regresji nieliniowej?

Moim celem jest przewidzenie Y.

W przypadku prostych i zbiorze mogłem zdecydować, które regresja model powinien być stosowany przez wykreślenie wykres punktowy. $x$ $y$

W przypadku wielu wariantów, takich jak i . Jak zdecydować, który model regresji należy zastosować? To znaczy, jak zdecyduję się na prosty model liniowy lub nieliniowy, taki jak kwadratowy, sześcienny itp. $x_1,x_2,...x_n$ $y$

Czy jest jakaś technika lub podejście statystyczne lub wykresy graficzne, aby wnioskować i zdecydować, który model regresji należy zastosować?

regression hypothesis-testing predictive-models nonlinear-regression shakthydoss
źródło

„Model nieliniowy” jest dość szeroką kategorią. Czy miałeś na myśli jeden? Jakie są twoje cele analizy?

shadowtalker

To zależy od twoich celów. Czy budujesz model prognozowania / prognozowania?

Aksakal

Przewidywanie jest moim celem.

shakthydoss

Jeśli szukasz czegoś w rodzaju podejścia „wykreśl dane”, ale dla wielu predyktorów, dodano wykresy zmiennych, które mogą mieć pewną wartość. Ale jeśli Twoim celem jest przewidywanie, problem polega na tym, że wybierasz to, co chcesz uzyskać na podstawie danych, więc będzie wyglądać znacznie lepiej na danych, które masz, niż na innych danych (i istnieje wiele innych problemów związanych z takim podejście do wyboru modelu) - aby właściwie oszacować zdolność przewidywania na podstawie próby, musisz ocenić rzeczy na próbce wstrzymującej / rozważyć coś takiego jak walidacja krzyżowa.

Glen_b

Przydatna może być podobna dyskusja , którą rozpocząłem jakiś czas temu.

Aleksandr Blekh

Odpowiedzi:

Jest to dziedzina statystyki zwana wyborem modelu. Przeprowadzono wiele badań w tej dziedzinie i nie ma jednoznacznej i łatwej odpowiedzi.

Załóżmy, że masz i i chcesz wiedzieć, czy powinieneś uwzględnić w modelu wyrażenie . W takiej sytuacji Twój bardziej oszczędny model jest zagnieżdżony w bardziej złożonym modelu. Innymi słowy, zmienne i (model oszczędny) są podzbiorem zmiennych i (model złożony). W budowaniu modeli masz (przynajmniej) jeden z następujących dwóch głównych celów: $X_1, X_2$ $X_3$ $X_3^2$ $X_1, X_2$ $X_3$ $X_1, X_2, X_3$ $X_3^2$

Wyjaśnij dane: próbujesz zrozumieć, jak pewien zestaw zmiennych wpływa na twoją zmienną odpowiedzi, lub jesteś zainteresowany tym, jak wpływa na , kontrolując efekty $X_1$ $Y$ $X_2,...X_p$
Przewiduj : chcesz dokładnie przewidzieć , nie dbając o to, co lub ile zmiennych jest w twoim modelu $Y$ $Y$

Jeśli Twoim celem jest numer 1, polecam test współczynnika wiarygodności (LRT). LRT jest używany, gdy masz modele zagnieżdżone i chcesz wiedzieć, „czy dane znacznie częściej pochodzą z modelu złożonego niż z modelu oszczędnego?”. Dzięki temu dowiesz się, który model lepiej wyjaśnia związek między twoimi danymi.

Jeśli twoim celem jest numer 2, zalecam jakąś technikę weryfikacji krzyżowej (CV) krotnie, CV z pominięciem jednego, CV z treningu testowego) w zależności od wielkości twoich danych. Podsumowując, te metody budują model na podzbiorze danych i przewidują wyniki na pozostałych danych. Wybierz model, który najlepiej prognozuje pozostałe dane. $k$

TrynnaDoStat
źródło

Czy mógłbyś / wyjaśnić różnicę między celami (1) i (2) bardziej wyraźnymi? Obecnie nie ma dużej różnicy.

ttnphns

@ttnphns Dodałem krótki opis dwóch celów.

TrynnaDoStat

@TrynnaDoStat Po prostu myliłem się w tym stwierdzeniu Wybierz model, który najlepiej prognozuje pracę. Przez najlepszy model masz na myśli wybór między modelem liniowym (oszczędnym) a modelem złożonym ... prawda? Ponieważ to, co wiem, to k-fold, pominięte CV służy do sprawdzania wydajności modelu na niewidzialnych danych. Nie są one używane do wyboru modelu. Jestem tu zmieszany.

tushaR

Kiedy szukam „liniowego lub nieliniowego modelu regresji”, otrzymuję linki prowadzące do tej książki: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Ta książka nie jest interesująca i nie nie ufaj temu w 100% (z pewnych powodów).

Znalazłem również ten artykuł: http://hunch.net/?p=524 z tytułem: Prawie wszystkie naturalne problemy wymagają nieliniowości

Znalazłem również podobne pytanie z całkiem dobrym wyjaśnieniem: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Z mojego doświadczenia wynika, że jeśli nie wiesz, którego modelu użyć, użyj obu i wypróbuj inne funkcje.

404pio
źródło

Jak twierdzisz, modele liniowe są zwykle prostsze niż modele nieliniowe, co oznacza, że działają szybciej (budowanie i przewidywanie), są łatwiejsze do interpretacji i wyjaśnienia, i zwykle są proste w pomiarach błędów. Dlatego celem jest sprawdzenie, czy założenia regresji liniowej są zgodne z Twoimi danymi (jeśli nie obsługujesz liniowej, to po prostu przejdź do nieliniowej). Zwykle powtarzasz wykres pojedynczej zmiennej ze wszystkimi zmiennymi indywidualnie, utrzymując wszystkie pozostałe zmienne na stałym poziomie.

Być może, co ważniejsze, chcesz wiedzieć, czy możesz zastosować transformację, interakcję zmiennej lub zmienną fikcyjną, aby przenieść dane do przestrzeni liniowej. Jeśli jesteś w stanie zweryfikować założenia lub znasz swoje dane wystarczająco dobrze, aby zastosować dobrze zmotywowane lub w inny sposób inteligentnie poinformowane transformacje lub modyfikacje, to chcesz kontynuować tę transformację i zastosować regresję liniową. Po uzyskaniu wartości resztkowych można wykreślić je w stosunku do wartości przewidywanych lub zmiennych niezależnych, aby dodatkowo zdecydować, czy należy przejść do metod nieliniowych.

W Duke istnieje doskonały podział założeń regresji liniowej . Wymieniono cztery główne założenia, a każde z nich jest podzielone na wpływ na model, sposób diagnozowania go w danych oraz potencjalne sposoby „naprawy” (tj. Przekształcenia lub dodania do) danych, aby założenie mogło zostać przyjęte. Oto mały fragment z góry podsumowujący cztery założone założenia, ale powinieneś tam pójść i przeczytać opisy awarii.

Istnieją cztery główne założenia uzasadniające zastosowanie modeli regresji liniowej do celów wnioskowania lub przewidywania:

(i) liniowość i addytywność związku między zmiennymi zależnymi i niezależnymi:

(a) Oczekiwana wartość zmiennej zależnej jest funkcją prostoliniową każdej zmiennej niezależnej, utrzymującą pozostałe.

(b) Nachylenie tej linii nie zależy od wartości innych zmiennych.

(c) Wpływ różnych zmiennych niezależnych na oczekiwaną wartość zmiennej zależnej jest addytywny.

(ii) statystyczna niezależność błędów (w szczególności brak korelacji między> kolejnymi błędami w przypadku danych szeregów czasowych)

(iii) homoscedastyczność (stała wariancja) błędów

a) a czas (w przypadku danych szeregów czasowych)

(b) a prognozy

(c) a dowolna zmienna niezależna

(iv) normalność rozkładu błędów.

wwwslinger
źródło