Jak odróżnić modele regresji liniowej od nieliniowej?

27

Czytałem następujący link o regresji nieliniowej SAS Nieliniowy . Rozumiem po przeczytaniu pierwszego rozdziału „Regresja nieliniowa vs. regresja liniowa”, że poniższe równanie jest w rzeczywistości regresją liniową, czy to prawda? Jeśli tak to dlaczego?

y = b_{1} x^{3} + b_{2} x^{2} + b_{3} x + c

$y = b_1x^3 + b_2x^2 + b_3x + c$

Czy mam również zrozumieć, że w regresji nieliniowej wielokoliniowość nie stanowi problemu? Wiem, że wielokoliniowość może być problemem w regresji liniowej, więc na pewno, jeśli powyższy model jest w rzeczywistości regresją liniową, istniałaby wielokoliniowość?

regression multiple-regression nonlinear-regression multicollinearity mHelpMe
źródło

Ściśle powiązane: stats.stackexchange.com/questions/33876 .

whuber

Również powiązany: co oznacza „krzywoliniowy”?

Gung - Przywróć Monikę

35

Istnieją (przynajmniej) trzy zmysły, w których regresję można uznać za „liniową”. Aby je rozróżnić, zacznijmy od wyjątkowo ogólnego modelu regresji

Y = f (X, θ, ε) .

$Y = f(X,\theta,\varepsilon).$

Aby uprościć dyskusję, weź zmienne niezależne do ustalenia i dokładnego zmierzenia (zamiast zmiennych losowych). Ich podstawowych obserwacji atrybutów każda, która prowadzi do -wektor odpowiedzi . Konwencjonalnie jest reprezentowane jako macierz , a jako kolumna wektor. (Skończony wektor) zawiera parametry . jest losową zmienną o wartości wektorowej. Zwykle ma $X$ $n$ $p$ $n$ $Y$ $X$ $n\times p$ $Y$ $n$ $q$ $\theta$ $\varepsilon$ $n$ elementy, ale czasami ma mniej. Funkcja ma wartość wektorową (z składnikami pasującymi do ) i zwykle przyjmuje się, że jest ona ciągła w dwóch ostatnich argumentach ( i ). $f$ $n$ $Y$ $\theta$ $\varepsilon$

Archetypowym przykładem dopasowania linii do danych jest przypadek, gdy jest wektorem liczb - wartości x; jest wektorem równoległym liczb ; podaje punkt przecięcia i nachylenie ; i jest wektorem „błędów losowych”, których składniki są niezależne (i zwykle przyjmuje się, że mają identyczne, ale nieznane rozkłady średniej wartości zerowej). W poprzednim zapisie $(x,y)$ $X$ $(x_i,\,i=1,2,\ldots,n)$ $Y$ $n$ $(y_i)$ $\theta = (\alpha,\beta)$ $\alpha$ $\beta$ $\varepsilon = (\varepsilon_1,\varepsilon_2,\ldots,\varepsilon_n)$

y_{i} = α + β x_{i} + ε_{i} = f (X, θ, ε)_{i}

$y_i = \alpha + \beta x_i +\varepsilon_i = f(X,\theta,\varepsilon)_i$

z . $\theta = (\alpha,\beta)$

Funkcja regresji może być liniowa w dowolnym (lub we wszystkich) z trzech argumentów:

„Regresja liniowa lub„ model liniowy ”zwykle oznacza, że jest liniowy jako funkcja parametrów . W tym znaczeniu znaczenie SAS oznacza„ regresja nieliniowa ” , z dodatkowym założeniem, że jest różniczkowalna w drugim argument (parametry) To założenie ułatwia znalezienie rozwiązań. $f$ $\theta$ $f$
Określenie „liniowa zależność między i ” środki jest liniowy w funkcji . $X$ $Y$ $f$ $X$
Model ma błędy addytywne, gdy jest liniowe w . W takich przypadkach zawsze zakłada się, że . (W przeciwnym razie nie byłoby słuszne myśleć o jako „błędach” lub „odchyleniach” od „poprawnych” wartości). $f$ $\varepsilon$ $\mathbb{E}(\varepsilon) = 0$ $\varepsilon$

Każda możliwa kombinacja tych cech może się zdarzyć i jest przydatna. Zbadajmy możliwości.

Model liniowy relacji liniowej z błędami addytywnymi. Jest to zwykła (wielokrotna) regresja, już pokazana powyżej i bardziej ogólnie zapisana jako

$Y = X θ + ε .$ $Y = X\theta + \varepsilon.$
$X$ został zwiększony, jeśli to konieczne, poprzez przyleganie do kolumny stałych, a jest wektorem . $\theta$ $p$
Model liniowy relacji nieliniowej z błędami addytywnymi. Można to sformułować jako regresję wielokrotną, rozszerzając kolumny o nieliniowe funkcje samegoNa przykład, $X$ $X$

$y_{i} = α + β x_{i}^{2} + ε$ $y_i = \alpha + \beta x_i^2 + \varepsilon$
jest w tej formie. Jest liniowy w ; ma błędy addytywne; i jest liniowy w wartościach mimo że jest nieliniową funkcją . $\theta=(\alpha,\beta)$ $(1,x_i^2)$ $x_i^2$ $x_i$
Model liniowy relacji liniowej z błędami nieaddytywnymi. Przykładem jest błąd multiplikatywny,

$y_{i} = (α + β x_{i}) ε_{i} .$ $y_i = (\alpha + \beta x_i)\varepsilon_i.$
(W takich przypadkach można interpretować jako „błędy multiplikatywne”, gdy lokalizacja wynosi Jednak właściwym wyczuciem lokalizacji niekoniecznie jest oczekiwanie : może to być na przykład mediana lub średnia geometryczna. Podobny komentarz na temat założeń dotyczących lokalizacji stosuje się mutatis mutandis również we wszystkich innych kontekstach nieaddytywnych). $\varepsilon_i$ $\varepsilon_i$ $1$ $\mathbb{E}(\varepsilon_i)$
Model liniowy relacji nieliniowej z błędami nieaddytywnymi. na przykład ,

$y_{i} = (α + β x_{i}^{2}) ε_{i} .$ $y_i = (\alpha + \beta x_i^2)\varepsilon_i.$
Nieliniowy model zależności liniowej z błędami addytywnymi. Model nieliniowy obejmuje kombinacje jego parametrów, które nie tylko są nieliniowe, ale nie można ich nawet zlinearyzować poprzez ponowne wyrażenie parametrów.
- Jako przykład nie rozważ tego
  
  $y_{i} = α β + β^{2} x_{i} + ε_{i} .$ $y_i = \alpha\beta + \beta^2 x_i + \varepsilon_i.$
  Poprzez zdefiniowanie i i ograniczenie , model ten można przepisać $\alpha^\prime = \alpha\beta$ $\beta^\prime=\beta^2$ $\beta^\prime \ge 0$
  
  $y_{i} = α^{'} + β^{'} x_{i} + ε_{i},$ $y_i = \alpha^\prime + \beta^\prime x_i + \varepsilon_i,$
  pokazując go jako model liniowy (relacji liniowej z błędami addytywnymi).
- Jako przykład rozważ
  
  $y_{i} = α + α^{2} x_{i} + ε_{i} .$ $y_i = \alpha + \alpha^2 x_i + \varepsilon_i.$
  Niemożliwe jest znalezienie nowego parametru , w zależności od , który zlinearyzuje go jako funkcję (jednocześnie zachowując liniowość również w ). $\alpha^\prime$ $\alpha$ $\alpha^\prime$ $x_i$
Nieliniowy model relacji nieliniowej z błędami addytywnymi.

$y_{i} = α + α^{2} x_{i}^{2} + ε_{i} .$ $y_i = \alpha + \alpha^2 x_i^2 + \varepsilon_i.$
Nieliniowy model zależności liniowej z nieaddytywnymi błędami.

$y_{i} = (α + α^{2} x_{i}) ε_{i} .$ $y_i = (\alpha + \alpha^2 x_i)\varepsilon_i.$
Nieliniowy model relacji nieliniowej z nieaddytywnymi błędami.

$y_{i} = (α + α^{2} x_{i}^{2}) ε_{i} .$ $y_i = (\alpha + \alpha^2 x_i^2)\varepsilon_i.$

Chociaż wykazują one osiem różnych form regresji, nie stanowią one systemu klasyfikacji, ponieważ niektóre formy można przekształcić w inne. Standardowym przykładem jest konwersja modelu liniowego z błędami nieaddytywnymi (zakłada się, że ma wsparcie dodatnie)

y_{i} = (α + β x_{i}) ε_{i}

$y_i = (\alpha + \beta x_i)\varepsilon_i$

do modelu liniowego relacji nieliniowej z błędami addytywnymi za pomocą logarytmu,

\log (y_{i}) = μ_{i} + \log (α + β x_{i}) + (\log (ε_{i}) - μ_{i})

$\log(y_i) = \mu_i + \log(\alpha + \beta x_i) + (\log(\varepsilon_i) - \mu_i)$

Tutaj średnia geometryczna dziennika została usunięta ze składników błędów (aby upewnić się, że mają zero środków, zgodnie z wymaganiami) i została włączona do innych warunków (gdzie należy oszacować jego wartość). Rzeczywiście, jednym z głównych powodów ponownego wyrażenia zmiennej zależnej jest stworzenie modelu z błędami addytywnymi. Ponowna ekspresja może również zlinearyzować jako funkcję jednego (lub obu) parametrów i zmiennych objaśniających. $\mu_i = \mathbb{E}\left(\log(\varepsilon_i)\right)$ $Y$ $Y$

Kolinearność

Kolinearność (wektorów kolumnowych w ) może być problemem w dowolnej formie regresji. Kluczem do zrozumienia tego jest uznanie, że kolinearność prowadzi do trudności w oszacowaniu parametrów. Streszczenie i całkiem ogólnie, porównaj dwa modele i gdzie to z jedną kolumną nieznacznie zmienione. Jeśli to powoduje ogromne zmiany w szacunkach i , to oczywiście mamy problem. Jednym ze sposobów powstania tego problemu jest model liniowy, liniowy w $X$ $Y = f(X,\theta,\varepsilon)$ $Y=f(X^\prime,\theta,\varepsilon^\prime)$ $X^\prime$ $X$ $\hat\theta$ $\hat\theta^\prime$ $X$ (to jest typu (1), lub (5) powyżej), przy czym składniki są odpowiednio jeden do jednego z kolumny . Gdy jedna kolumna jest nietrywialną liniową kombinacją innych, oszacowanie odpowiadającego jej parametru może być dowolną liczbą rzeczywistą. To skrajny przykład takiej wrażliwości. $\theta$ $X$

Z tego punktu widzenia powinno być jasne, że kolinearność jest potencjalnym problemem dla liniowych modeli zależności nieliniowych (niezależnie od addytywności błędów) i że ta uogólniona koncepcja kolinearności jest potencjalnie problemem w każdym modelu regresji. Gdy masz nadmiarowe zmienne, będziesz mieć problemy z identyfikacją niektórych parametrów.

Whuber
źródło

czy możesz polecić zwięzłą, wprowadzającą lekturę, która pomoże mi lepiej zrozumieć wspomnianą linearyzację, która stanowi sedno różnicy między twoim przykładem a nie-przykładem w punkcie 5. Dziękuję.

ColorStatistics

@Color Nie znam żadnego. Przy łagodnych założeniach dotyczących różniczkowalności możliwych przekształceń rozwiązuje to teoria równań różniczkowych cząstkowych (PDE).

whuber

0

Powinieneś zacząć już teraz, wprowadzając różnicę między rzeczywistością a modelem, którego używasz do jej opisu

Wspomniane równanie jest równaniem wielomianowym (moc x ^), tj. nieliniowy ... ale nadal można go modelować za pomocą uogólnionego modelu liniowego (za pomocą funkcji łącza) lub regresji wielomianowej, ponieważ parametry są liniowe (b1, b2, b3, c)

miejmy nadzieję, że pomogło, w rzeczywistości jest trochę szkicowe: rzeczywistość / model

Po Stulat
źródło

3

Można to oszacować za pomocą zwykłych najmniejszych kwadratów, ponieważ model ma parametry liniowe.

Analityk

więc to wszystko ma związek z parametrami? jeśli b3 ^ 2 * x nadal byłoby liniowe?

mHelpMe

0

Model jest liniowy, jeśli ma parametry liniowe lub może zostać przekształcony w parametry liniowe (linearyzowalne). Modele liniowe mogą modelować zależności liniowe lub nieliniowe. Rozwińmy każdy z nich.

Model jest liniowy w parametrach, jeśli może być zapisana jako suma warunków, w którym każdy składnik jest albo stała albo parametr pomnożenie predykcyjnych (X _I ):

Zauważ, że ta definicja jest bardzo wąska. Tylko modele spełniające tę definicję są liniowe. Każdy inny model jest nieliniowy.

Istnieją dwa typy modeli liniowych, które są mylone z modelami nieliniowymi:

1. Modele liniowe relacji nieliniowych

Na przykład poniższy model modeluje relację nieliniową (ponieważ pochodna Y w odniesieniu do X ₁ jest funkcją X ₁ ). Tworząc nową zmienną W ₁ = X ₁² i ponownie zapisując równanie z W ₁ zastępującym X ₁² , otrzymujemy równanie, które spełnia definicję modelu liniowego.

2. Modele, które nie są od razu liniowe, ale mogą stać się liniowe po transformacji (linearyzowalne). Poniżej znajdują się 2 przykłady modeli z możliwością linearyzacji:

Przykład 1:

Model ten może wydawać się nieliniowy, ponieważ nie spełnia definicji modelu o parametrach liniowych, jednak może zostać przekształcony w model liniowy, dlatego jest liniowy / transformowalny liniowy, a zatem jest uważany za liniowy Model. Poniższe przekształcenia zlinearyzowałyby go. Zacznij od logarytmu naturalnego obu stron, aby uzyskać:

następnie dokonaj następujących zmian:

aby uzyskać model liniowy poniżej:

Przykład 2:

Model ten może wydawać się nieliniowy, ponieważ nie spełnia definicji modelu o parametrach liniowych, jednak może zostać przekształcony w model liniowy, dlatego jest liniowy / transformowalny liniowy, a zatem jest uważany za liniowy Model. Poniższe przekształcenia zlinearyzowałyby go. Zacznij od wzajemności obu stron, aby uzyskać:

następnie dokonaj następujących zmian:

aby uzyskać model liniowy poniżej:

Każdy model, który nie jest liniowy (nawet poprzez linearyzację), jest nieliniowy. Pomyśl o tym w ten sposób: jeśli model nie spełnia definicji modelu liniowego, jest to model nieliniowy, chyba że można udowodnić, że jest on linearyzowalny, w którym to momencie zyskuje prawo do nazwania go modelem liniowym.

Powyższa odpowiedź Whubera, a także odpowiedź Glen_b w tym linku dodają więcej koloru mojej odpowiedzi. Nieliniowy vs. uogólniony model liniowy: jak odnosisz się do regresji logistycznej, Poissona itp.?

ColorStatistics
źródło

Jak odróżnić modele regresji liniowej od nieliniowej?

Odpowiedzi:

Kolinearność