Metody dopasowania „prostego” modelu błędu pomiaru

13

Szukam metod, które można wykorzystać do oszacowania modelu błędu pomiaru „OLS”.

x i = X i + e x , i Y i = α + β X i

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

Gdzie błędy są niezależne normalne z nieznanymi wariancjami i . „Standardowy” OLS nie będzie w tym przypadku działał. σ 2 xσy2σx2

Wikipedia ma kilka nieprzyjemnych rozwiązań - dwie podane siły zmuszają cię do założenia, że ​​albo „współczynnik wariancji” lub „ współczynnik niezawodności " jest znany, gdzie jest wariantem prawdziwego regresora . Nie jestem tym usatysfakcjonowany, ponieważ jak ktoś, kto nie zna różnic, może poznać ich stosunek? λ=σ 2 Xδ=σy2σx2 σ 2 X Xiλ=σX2σx2+σX2σX2Xi

W każdym razie, czy są jakieś inne rozwiązania oprócz tych dwóch, które nie wymagają ode mnie „znajomości” parametrów?

Rozwiązania tylko dla przechwytywania i nachylenia są w porządku.

prawdopodobieństwo prawdopodobieństwa
źródło
artykuł w Wikipedii zawiera odpowiedź na to pytanie. Jeśli przyjmujesz normalność „prawdziwego” regresora, potrzebujesz dalszych warunków w rozkładzie błędów. Jeśli prawdziwy regresor nie jest gaussowski, masz nadzieję. Zobacz Reiersol (1950) .
kardynał
co rozumiesz przez „Rozwiązania tylko dla przechwytywania i nachylenia są w porządku”. To tylko twoje dwa parametry! A może miałeś również nadzieję wycofać się z „prawdziwego” regresora?
kardynał
@ cardinal - miałem na myśli, że nie dbałem szczególnie o dwa parametry skali i, jak mówisz, „prawdziwy” regressor . Xi
probabilislogiczny
Widzę. To ma sens.
kardynał

Odpowiedzi:

7

Istnieje szereg możliwości opisanych przez JW Gillarda w historycznym przeglądzie regresji liniowej z błędami w obu zmiennych

Jeśli nie interesują Cię szczegóły ani powody, dla których wybierasz jedną metodę zamiast drugiej, po prostu wybierz najprostszą, czyli narysuj linię przez środek ciężkości z nachyleniem , tj. stosunek zaobserwowanych odchyleń standardowych (czyniąc znak nachylenia tym samym co znak kowariancji i ); jak zapewne możesz się poćwiczyć, daje to przecięcie osiβ = y r / y x x Y Y α = ˉ Y - β ˉ x .(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

Zalety tego konkretnego podejścia są następujące

  1. daje tę samą linię porównując względem jak względem ,y y xxyyx
  2. jest niezmienny w skali, więc nie musisz się martwić o jednostki,
  3. leży między dwiema zwykłymi liniowymi liniami regresji
  4. przecina je tam, gdzie przecinają się w środku ciężkości obserwacji, i
  5. bardzo łatwo to obliczyć.

Nachylenie jest średnią geometryczną nachyleń dwóch zwykłych nachyleń regresji liniowej. Jest też, co można uzyskać, jeśli standaryzowany przez i obserwacje, narysował linię pod kątem 45 ° (lub 135 °, jeśli istnieje korelacja ujemna), a następnie de-standaryzowany linię. Można to również uznać za równoważne z domniemanym założeniem, że wariancje dwóch zestawów błędów są proporcjonalne do wariancji dwóch zestawów obserwacji; o ile mogę powiedzieć, twierdzisz, że nie wiesz, w którą stronę jest to źle.yxy

Oto kod R do zilustrowania: czerwona linia na wykresie to regresja OLS dla na , niebieska linia to regresja OLS dla na , a zielona linia to ta prosta metoda. Pamiętaj, że nachylenie powinno wynosić około 5.X X YYXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")
Henz
źródło
@Henry, twoja definicja nie ma dla mnie żadnego sensu. Brakuje niektórych „czapek”? β^
kardynał
Oznacza to, że jest to obserwowane odchylenie standardowe podzielone przez obserwowane odchylenie standardowe . Zamienię na{yi}{xi}σs
Henry
@Henry, czy możesz wyjaśnić niektóre z twoich komentarzy? Na podstawie twojego obecnego opisu coś mnie uderza. Niech będzie nachyleniem, zakładając, że jest odpowiedzią, a jest predyktorem. Niech będzie nachyleniem, zakładając, że jest odpowiedzią predyktorem. Następnie i , gdzie próbka jest korelacja pomiędzy i . Stąd średnia geometryczna tych dwóch oszacowań nachylenia to po prostu .β^xyyxβ^yxxyβ^xy=ρ^sy/sxβ^yx=ρ^sx/syρ^xyρ^
kardynał
@ cardinal: Nie - kiedy widzę Mam na myśli, że nachylenie wynosi ponieważ można je przepisać jako . Kiedy próbujesz narysować dwie linie OLS na tym samym wykresie wraz z zaobserwowanymi punktami (np. na osi pionowej i na osi poziomej), musisz odwrócić jeden z nachyleń. Miałem na myśli, że bierzesz geometryczną średnią z i , czyli po prostu . Lub, jeśli jesteś niekonwencjonalny, aby narysować i odwrotnie dla obu linii i obserwowanych punktów, otrzymasz odwrotność tego jako nachylenie.1 / b y = x / b - c / b r x ρ y r / y x y r / ρ a x y r / y x r xx=by+c1/by=x/bc/byxρ^sy/sxsy/ρ^sxsy/sxyx
Henry
@Henry - to dość interesująca odpowiedź. Niekoniecznie wątpię w jego ważność, ale jedną rzeczą, która mnie zaskakuje, jest to, że korelacja / kowariancja między i jest całkowicie nieobecna w odpowiedzi. Z pewnością powinno to mieć związek z odpowiedzią? XYX
prawdopodobieństwo prawdopodobieństwo