Mam zestaw wartości i , które są teoretycznie związanych wykładniczo:
Jednym ze sposobów uzyskania współczynników jest zastosowanie logarytmów naturalnych po obu stronach i dopasowanie modelu liniowego:
> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]
Innym sposobem uzyskania tego jest regresja nieliniowa, biorąc pod uwagę teoretyczny zestaw wartości początkowych:
> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))
Moje testy pokazują lepsze i bardziej związane z teorią wyniki, jeśli zastosuję drugi algorytm. Chciałbym jednak poznać znaczenie statystyczne i implikacje każdej metody.
Który z nich jest lepszy?
r
regression
linear-model
model-selection
nonlinear-regression
Iñigo Hernáez Corres
źródło
źródło
exp()
: to, co tu masz, jest bardziej powszechnie nazywane funkcją władzy, prawem mocy lub prawem skalowania. Inne nazwy bez wątpienia istnieją. Nie ma związku z mocą w sensie testowania hipotez.Odpowiedzi:
„Lepszy” jest funkcją twojego modelu.
Jednym z powodów tego zamieszania jest to, że napisałeś tylko połowę swojego modelu.
Kiedy mówisz , tak naprawdę nie jest to prawdą. Twoje zaobserwowane wartości nie są równe ; mają składnik błędu.y=axb y axb
Na przykład dwa wspomniane modele (nie jedyne możliwe modele) przyjmują zupełnie inne założenia dotyczące błędu.
Prawdopodobnie czegoś bliżej .E(Y|X=x)=axb
Ale co zatem mówimy o odchyleniu od tego oczekiwania przy danym ? To ma znaczenie!Y x
Kiedy dopasowujesz model nieliniowego najmniejszego kwadratu, mówisz, że błędy sumują się, a standardowe odchylenie błędów jest stałe w danych:
lub równoważnie
przeciwnie, gdy bierzesz dzienniki i dopasowujesz model liniowy, mówisz, że błąd jest addytywny w skali dziennika i (w skali dziennika) stały w danych. Oznacza to, że w skali obserwacji termin błędu jest multiplikatywny , a zatem błędy są większe, gdy oczekiwane wartości są większe:
lub równoważnie
(Zauważ, że nie jest 1. Jeśli jest mała, musisz pozwolić na ten efekt)E(η) σ2
(Możesz robić najmniejszych kwadratów bez zakładania rozkładów normalności / logarytmicznych, ale omawiany centralny problem nadal obowiązuje ... a jeśli nie jesteś w pobliżu normalności, prawdopodobnie powinieneś rozważyć inny model błędu)
To, co jest najlepsze, zależy od tego, jaki model błędu opisuje twoje okoliczności.
[Jeśli robisz jakąś analizę rozpoznawczą z pewnego rodzaju danych, który nie został dotąd, można by rozważyć pytania typu „Co twoje dane wyglądać? (Czyli wykreślono ? Co oznaczają reszty wyglądać przeciwko ? Z drugiej strony, jeśli takie zmienne nie są rzadkie, powinieneś już mieć informacje o ich ogólnym zachowaniu.]y x x
źródło
Kiedy dopasowujesz którykolwiek z modeli, zakładasz, że zbiór reszt (rozbieżności między obserwowanymi a przewidywanymi wartościami Y) jest zgodny z rozkładem Gaussa. Jeśli to założenie jest prawdziwe w przypadku surowych danych (regresja nieliniowa), nie będzie prawdziwe w przypadku wartości przekształconych logarytmicznie (regresja liniowa) i odwrotnie.
Który model jest „lepszy”? Ten, w którym założenia modelu najbardziej pasują do danych.
źródło