Błąd addytywny czy błąd mnożenia?

Jestem stosunkowo nowy w statystyce i byłbym wdzięczny za pomoc w lepszym zrozumieniu tego.

W mojej dziedzinie znajduje się powszechnie stosowany model formularza:

P_{t} = P_{o} (V_{t})^{α}

$P_t = P_o(V_t)^\alpha$

Kiedy ludzie dopasowują model do danych, zwykle linearyzują go i dopasowują do poniższych

\log (P_{t}) = \log (P_{o}) + α \log (V_{t}) + ϵ

$\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon$

Czy to jest ok? Czytałem gdzieś, że ze względu na szum w sygnale powinien być faktyczny model

P_{t} = P_{o} (V_{t})^{α} + ϵ

$P_t = P_o(V_t)^\alpha + \epsilon$

i nie można tego linearyzować jak wyżej. Czy to prawda? Jeśli tak, to czy ktoś wie o referencji, którą mogę przeczytać i dowiedzieć się więcej na ten temat i prawdopodobnie zacytował w raporcie?

modeling model error curve-fitting measurement-error ciaran_r
źródło

Sformatowałem twoje równania. Sprawdź, czy treść jest nadal zgodna z zamierzeniami (szczególnie jeśli chodzi o indeksy dolne).

Andy,

Oznacziłeś swoje pytanie jako „błąd pomiaru”, a + e w 3. równaniu wydaje się wynikać z addytywnego błędu pomiaru oprócz multiplikatywnej stochastycznej / losowej zmienności odpowiedzi, coś w rodzaju P * (V ^ alfa) * exp (e). Czy to jest poprawne? Modele błędów pomiaru (inaczej modele „błędu w zmiennych”) często wymagają pewnego rodzaju dwuetapowego procesu, który w twoim przypadku może wymagać osobnych danych walidacyjnych do scharakteryzowania błędu addytywnego z powodu „szumu”, w którym to przypadku może nie być trzeba zlinearyzować równanie.

N Brouwer,

Odpowiedzi:

To, który model jest odpowiedni, zależy od tego, jak zmienność wokół średniej wpływa na obserwacje. Może się to pojawiać multiplikacyjnie lub addytywnie ... lub w inny sposób.

Może istnieć nawet kilka źródeł tej odmiany, niektóre z nich mogą wchodzić multiplikacyjnie, a niektóre, które wchodzą addycyjnie, a niektóre w sposób, którego tak naprawdę nie można scharakteryzować jako jedno z nich.

Czasami istnieje jasna teoria, aby ustalić, która jest odpowiednia. Czasami rozważenie głównych źródeł zmienności na temat średniej ujawni właściwy wybór. Często ludzie nie mają jasnego pojęcia, którego użyć, lub jeśli może być potrzebnych kilka różnych odmian różnych rodzajów, aby odpowiednio opisać proces.

W modelu log-liniowym, w którym stosowana jest regresja liniowa:

$\log(P_t)=log(P_o)+α\log(V_t)+ϵ$

model regresji OLS zakłada stałą wariancję skali logarytmicznej, a jeśli tak jest, wówczas oryginalne dane wykażą rosnący spread wokół średniej wraz ze wzrostem średniej.

Z drugiej strony ten rodzaj modelu:

$P_t=P_o(V_t)^α+ϵ$

jest generalnie dopasowywana przez nieliniowe najmniejsze kwadraty, i ponownie, jeśli dopasowana jest stała wariancja (domyślna dla NLS), to spread wokół średniej powinien być stały.

wprowadź opis zdjęcia tutaj

[Możesz mieć wrażenie wizualne, że spread maleje wraz ze wzrostem średniej na ostatnim zdjęciu; to właściwie złudzenie spowodowane rosnącym nachyleniem - zwykle oceniamy rozproszenie prostopadłe do krzywej, a nie pionowo, więc mamy zniekształcone wrażenie.]

Jeśli masz prawie stały rozkład na skali oryginału lub dziennika, może to sugerować, który z dwóch modeli pasuje, nie dlatego, że dowodzi, że jest on addytywny lub multiplikatywny, ale dlatego, że prowadzi do odpowiedniego opisu rozprzestrzeniania się, a także oznaczać.

Oczywiście można również mieć możliwość błędu addytywnego, który miałby niestałą wariancję.

Istnieją jednak jeszcze inne modele, w których można dopasować takie zależności funkcjonalne, które mają różne zależności między średnią a wariancją (takie jak GLM Poissona lub quasi-Poissona, który ma rozkład proporcjonalny do pierwiastka kwadratowego średniej).

Glen_b - Przywróć Monikę
źródło