Model regresji liniowej, który najlepiej pasuje do danych z błędami

9

Szukam algorytmu regresji liniowej, który jest najbardziej odpowiedni dla danych, których zmienna niezależna (x) ma stały błąd pomiaru, a zmienna zależna (y) ma błąd zależny od sygnału.

wprowadź opis zdjęcia tutaj

Powyższe zdjęcie ilustruje moje pytanie.

użytkownik46178
źródło
1
Jeśli stała zmienna x ma stały błąd pomiaru, a błędy są używane tylko do względnego ważenia zmiennych, czy ta sytuacja nie jest równoważna z brakiem błędów w x?
pedrofigueira
2
@pedro Tak nie jest, ponieważ błędy w nie są jedynie wagami w formule. W przypadku regresji błędów zmiennych dopasowania będą się różnić, a szacunki kowariancji parametrów będą się różnić od zwykłej regresji. x
whuber
1
Dziękuję za wyjaśnienie. Czy możesz trochę wyjaśnić, dlaczego tak jest?
pedrofigueira

Odpowiedzi:

2

Błąd pomiaru w zmiennej zależnej

Biorąc pod uwagę ogólny model liniowy z homosckedastic, nie autokorelowany i nieskorelowany z niezależnymi zmiennymi, niech oznacza zmienną „true”, i jego obserwowalna miara. Błąd pomiaru definiuje się jako różnicę Zatem szacowany model to: Ponieważ są zaobserwowano, że możemy oszacować model według OLS. Jeśli błąd pomiaru w jest statystycznie niezależny od każdej zmiennej objaśniającej, wówczas

(1)y=β0+β1x1++βkxk+ε
εyy
e=yy
(2)y=β0+β1x1++βkxk+e+ε
y,x1,,xky(e+ε)ma takie same właściwości jak i obowiązują zwykłe procedury wnioskowania OLS ( statystyki itp.). Jednak w twoim przypadku oczekiwałbym rosnącej wariancji . Możesz użyć:εte
  • estymator najmniejszych kwadratów ważony (np. Kutner i in. , § 11.1 ; Verbeek , §4.3.1-3);

  • estymator OLS, który jest wciąż bezstronny i spójny, oraz błędy standardowe spójne z heteroskedastycznością, lub po prostu standardowe błędy Wite'a ( Verbeek , §4.3.4).

Błąd pomiaru w zmiennej niezależnej

Biorąc pod uwagę ten sam model liniowy jak powyżej, niech oznacza „prawdziwą” wartość, a jej obserwowalną miarą. Błąd pomiaru wynosi teraz: Istnieją dwie główne sytuacje ( Wooldridge , §4.4.2).xkxk

ek=xkxk
  • Cov(xk,ek)=0 : błąd pomiaru nie jest skorelowany z obserwowaną miarą i dlatego musi być skorelowany z nieobserwowaną zmienną ; pisania i podłączając ten w (1): od i oba są skorelowane ze sobą , w tym , Mierzenie zwiększa wariancję błędu i nie narusza żadnego z założeń OLS;xkxk=xkek

    y=β0+β1x1++βkxk+(εβkek)
    εexjxk
  • Cov(xk,ηk)=0 : błąd pomiaru jest nieskorelowany z nieobserwowaną zmienną i dlatego musi być skorelowany z zaobserwowaną miarą ; taka korelacja powoduje problemy i regresja OLS na ogólnie daje tendencyjne i niejednoznaczne estymatory.xkyx1,,xk

O ile mogę się domyślić, patrząc na twój wykres (błędy wyśrodkowane na „prawdziwych” wartościach zmiennej niezależnej), pierwszy scenariusz mógłby mieć zastosowanie.

Sergio
źródło