Jestem stosunkowo nowy w statystyce i byłbym wdzięczny za pomoc w lepszym zrozumieniu tego.
W mojej dziedzinie znajduje się powszechnie stosowany model formularza:
Kiedy ludzie dopasowują model do danych, zwykle linearyzują go i dopasowują do poniższych
Czy to jest ok? Czytałem gdzieś, że ze względu na szum w sygnale powinien być faktyczny model
i nie można tego linearyzować jak wyżej. Czy to prawda? Jeśli tak, to czy ktoś wie o referencji, którą mogę przeczytać i dowiedzieć się więcej na ten temat i prawdopodobnie zacytował w raporcie?
modeling
model
error
curve-fitting
measurement-error
ciaran_r
źródło
źródło
Odpowiedzi:
To, który model jest odpowiedni, zależy od tego, jak zmienność wokół średniej wpływa na obserwacje. Może się to pojawiać multiplikacyjnie lub addytywnie ... lub w inny sposób.
Może istnieć nawet kilka źródeł tej odmiany, niektóre z nich mogą wchodzić multiplikacyjnie, a niektóre, które wchodzą addycyjnie, a niektóre w sposób, którego tak naprawdę nie można scharakteryzować jako jedno z nich.
Czasami istnieje jasna teoria, aby ustalić, która jest odpowiednia. Czasami rozważenie głównych źródeł zmienności na temat średniej ujawni właściwy wybór. Często ludzie nie mają jasnego pojęcia, którego użyć, lub jeśli może być potrzebnych kilka różnych odmian różnych rodzajów, aby odpowiednio opisać proces.
W modelu log-liniowym, w którym stosowana jest regresja liniowa:
model regresji OLS zakłada stałą wariancję skali logarytmicznej, a jeśli tak jest, wówczas oryginalne dane wykażą rosnący spread wokół średniej wraz ze wzrostem średniej.
Z drugiej strony ten rodzaj modelu:
jest generalnie dopasowywana przez nieliniowe najmniejsze kwadraty, i ponownie, jeśli dopasowana jest stała wariancja (domyślna dla NLS), to spread wokół średniej powinien być stały.
[Możesz mieć wrażenie wizualne, że spread maleje wraz ze wzrostem średniej na ostatnim zdjęciu; to właściwie złudzenie spowodowane rosnącym nachyleniem - zwykle oceniamy rozproszenie prostopadłe do krzywej, a nie pionowo, więc mamy zniekształcone wrażenie.]
Jeśli masz prawie stały rozkład na skali oryginału lub dziennika, może to sugerować, który z dwóch modeli pasuje, nie dlatego, że dowodzi, że jest on addytywny lub multiplikatywny, ale dlatego, że prowadzi do odpowiedniego opisu rozprzestrzeniania się, a także oznaczać.
Oczywiście można również mieć możliwość błędu addytywnego, który miałby niestałą wariancję.
Istnieją jednak jeszcze inne modele, w których można dopasować takie zależności funkcjonalne, które mają różne zależności między średnią a wariancją (takie jak GLM Poissona lub quasi-Poissona, który ma rozkład proporcjonalny do pierwiastka kwadratowego średniej).
źródło