Jakie jest znaczenie rozróżnienia między modelami liniowymi i nieliniowymi? Pytanie Nieliniowy vs. uogólniony model liniowy: jak odnosisz się do regresji logistycznej, Poissona itp.? a jego odpowiedzią było niezwykle pomocne wyjaśnienie liniowości / nieliniowości uogólnionych modeli liniowych. Rozróżnienie modeli liniowych od nieliniowych wydaje się niezwykle ważne, ale nie jest dla mnie jasne, dlaczego? Rozważmy na przykład następujące modele regresji:
Oba modele 1 i 2 są liniowe, a rozwiązania istnieją w formie zamkniętej, którą można łatwo znaleźć za pomocą standardowego estymatora OLS. Nie dotyczy to modeli 3 i 4, które są nieliniowe, ponieważ (niektóre) pochodne wrt są nadal funkcjami .
Jednym prostym rozwiązaniem do oszacowania w Modelu 3 jest linearyzacja modelu poprzez ustawienie , oszacowanie za pomocą modelu liniowego, a następnie obliczenie .
Aby oszacować parametry w Modelu 4, możemy założyć, że ma rozkład dwumianowy (członek rodziny wykładniczej) i, wykorzystując fakt, że formą logistyczną modelu jest łącze kanoniczne, linearyzuje rogi modelu. To był znaczący wkład Neldera i Wedderburn .
Ale dlaczego ta nieliniowość jest przede wszystkim problemem? Dlaczego nie można po prostu użyć jakiegoś algorytmu iteracyjnego do rozwiązania Modelu 3 bez linearyzacji przy użyciu funkcji pierwiastka kwadratowego lub Modelu 4 bez wywoływania GLM. Podejrzewam, że przed rozpowszechnieniem potęgi obliczeniowej statystycy próbowali wszystko zlinearyzować. Jeśli to prawda, to może „problemy” wprowadzone przez nieliniowość są pozostałością po przeszłości? Czy komplikacje wprowadzone przez modele nieliniowe mają jedynie charakter obliczeniowy, czy też istnieją inne teoretyczne problemy, które sprawiają, że modele nieliniowe są trudniejsze w dopasowaniu do danych niż modele liniowe?
źródło
Odpowiedzi:
Widzę dwie główne różnice:
liniowość czyni to prostym i solidnym. Na przykład (liniowy) OLS jest obiektywnym estymatorem przy nieznanym rozkładzie zakłóceń. Zasadniczo modele GLM i nieliniowe nie są. OLS jest również odporny na różne modele struktury błędów (efekty losowe, grupowanie itp.), W których w modelach nieliniowych zazwyczaj trzeba przyjąć dokładny rozkład tych terminów.
Rozwiązanie jest proste: wystarczy kilka mnożenia macierzy + 1 odwrotność. Oznacza to, że prawie zawsze możesz go rozwiązać, nawet w przypadkach, gdy funkcja celu jest prawie płaska (wielokoliniowość.) Metody iteracyjne mogą nie zbiegać się w takich problematycznych przypadkach (co w pewnym sensie jest dobrą rzeczą). Łatwe rozwiązanie może lub może nie może być mniejszym problemem w dzisiejszych czasach. Komputery stają się szybsze, ale dane stają się większe. Czy kiedykolwiek próbowałeś uruchomić regresję logit na obserwacjach 1G?
Poza tym modele liniowe są łatwiejsze do interpretacji. W modelach liniowych efekty krańcowe równe współczynnikom i są niezależne od wartości X (chociaż terminy wielomianowe psują tę prostotę).
źródło
Wiele modeli w biologii (i innych dziedzinach) jest nieliniowych, więc najlepiej pasują do regresji nieliniowej. Oczywiście matematyka jest inna. Ale z punktu widzenia analityka danych naprawdę jest tylko jedna ważna różnica.
Regresja nieliniowa wymaga początkowych wartości szacunkowych dla każdego parametru. Jeśli te wstępne szacunki są dalekie, program regresji nieliniowej może zbiegać się na fałszywym minimum i dawać bezużyteczne lub mylące wyniki.
źródło
Po pierwsze zamierzam zastąpić słowo „model” słowem „regresja”. Myślę, że dla obu słów naprawdę pytamy, jakie są odpowiednie równania, które definiują model i jaka jest odpowiednia hipoteza odnosząca się do wartości zmiennej zależnej i wartości przewidywanych przez równanie / model. Myślę, że termin „model” jest bardziej standardowy. Jeśli się z tym zgadzasz, czytaj dalej.
Naprawdę zawdzięczam tę odpowiedź refleksjom na temat komentarza kolegi, który jest klasycznie wyszkolonym probabilistą i statystykiem. Gwałtownie sprzeciwił się książce określającej regresję wielomianową jako nieliniową i wtedy poważniej czytam o modelach nieliniowych. Uważam, że poprawną odpowiedzią jest to, że model liniowy zakłada, że termin błędu jest gaussowski, podczas gdy uogólniony model liniowy przyjmuje bardziej uogólnioną formę dla terminu błędu. Jeśli są dowolnym zestawem funkcji, wówczas można spróbować zbudować model liniowy w . Na przykład, jeśli , otrzymamy regresję wielomianową. Jest to model liniowy, jeśli różnicaϕ1,…,ϕn ϕ1,…,ϕn ϕi=xi ϵi=yi−∑aijxj jest gaussowski. Imho, myślę, że wikipedia ma bardzo rozsądne wyjaśnienie ogólnych modeli liniowych. Myślę, że jest to kluczowe zdanie: „GLM uogólnia regresję liniową, umożliwiając powiązanie modelu liniowego ze zmienną odpowiedzi za pomocą funkcji powiązania i dopuszczając, aby wielkość wariancji każdego pomiaru była funkcją jego przewidywanej wartości. „ Zatem glm pozwala na bardziej ogólny termin błędu. Pozwala to na większą elastyczność w modelowaniu. Cena ? Obliczenie właściwego modelu jest trudniejsze. Nie ma już prostej metody obliczania współczynników. Współczynniki regresji liniowej można znaleźć, minimalizując funkcję kwadratową, która ma unikalne mimimum. Słowami Borata, na cholerę, nie tyle. Trzeba obliczyć mle,
źródło