Czy w tym przypadku regresja x na y jest wyraźnie lepsza niż y na x?

10

Przyrząd używany do pomiaru poziomu glukozy we krwi osoby jest monitorowany na losowej próbce 10 osób. Poziomy są również mierzone przy użyciu bardzo dokładnej procedury laboratoryjnej. Miara przyrządu jest oznaczona przez x. Miarą procedury laboratoryjnej jest y.

Osobiście uważam, że y na x jest bardziej poprawne, ponieważ intencją jest wykorzystanie odczytów przyrządu do przewidywania odczytów laboratoryjnych. Y na x minimalizuje błędy takich prognoz.

Ale odpowiedzią było x na y.

Neo
źródło
2
Witamy na stronie @Neo. Jeśli to pytanie było motywowane ćwiczeniem w klasie / podręczniku, dodaj [self-study]znacznik.
Gung - Przywróć Monikę

Odpowiedzi:

6

Wiele prac laboratoryjnych, zwłaszcza eksperymenty z testowaniem przyrządów, stosuje taką regresję x.

Twierdzą, że z gromadzenia danych w eksperymencie kontrolowane są warunki yi uzyskujemy x z odczytu przyrządu (wprowadzając w nim jakiś błąd). Jest to oryginalny model fizyczny eksperymentu, więc bardziej odpowiedni jest błąd x ~ y +.

Aby zminimalizować błąd eksperymentu, czasami, gdy y jest kontrolowany w tych samych warunkach, x jest mierzone kilkakrotnie (lub powtarzany eksperyment). Ta procedura może pomóc ci zrozumieć logikę, która się za nimi kryje, i lepiej znaleźć błąd x ~ y +.

Vincent
źródło
+1 Myślę, że tak naprawdę jak dotąd odpowiedź, to prawdopodobnie najlepiej odnosi się do oryginalnego postu. To pytanie było prawie na pewno uzasadnione raczej zrozumieniem instrumentu niż skalibrowaniem proxy. Jeśli masz tylko jeden pomiar X dla każdego Y, to jestem całkiem pewien (na bok komentarz Whubera), że Y-on-X jest poprawnym podejściem. Wiele X-ów to niszczy, ale X-on-Y jest nadal poprawny (ale nie nadaje się do przewidywania Y).
Korone,
Masz problem, @Corone: jeśli zarówno X vs Y, jak i Y vs X są poprawne, wszyscy wiemy, że otrzymujesz wyraźnie różne dopasowane linie, gdy jest mniejsze niż 1 . Którą z tych dwóch linii wybierzesz i na jakiej podstawie? Prawidłowa rozdzielczość tego dylematu polega na tym, że - jak wyjaśnia Vincent - w naszej koncepcji błędu pomiaru występuje asymetria: przyrząd mierzy się z zauważalnym błędem; zakłada się, że laboratorium nie ma zauważalnego błędu. Procedury regresji zwykłej zakładają, że X nie ma błędu i cały błąd jest w Y, więc to go rozwiązuje. R21
whuber
@ whuber oba są poprawne, ale odpowiadają na różne problemy. Przy wielu pomiarach X Y-on-X nie jest już nawet poprawny dla problemu, na który ma odpowiedzieć. Moje komentarze stają się głupie, nie, więc zamiast tego zmodyfikuję moją odpowiedź
Korone,
6

Jak to zwykle bywa, różne analizy odpowiadają na różne pytania. Zarówno i X  na  Y mogą być tutaj prawidłowe, po prostu upewnij się, że Twoja analiza odpowiada pytaniu, na które chcesz odpowiedzieć. (Aby uzyskać więcej informacji na ten temat, możesz przeczytać moją odpowiedź tutaj: Jaka jest różnica między regresją liniową na Y z X i X z Y? )Y na XX na Y

Masz rację, że jeśli będzie wszystko, co chcesz zrobić, to przewidzieć najbardziej prawdopodobny wartość podaną wiedzę o X wartości, byś regres Y  na  X . Jeśli jednak chcesz zrozumieć, w jaki sposób te miary są ze sobą powiązane, możesz zastosować podejście oparte na błędach zmiennych , ponieważ uważasz, że w X występuje błąd pomiaru . YXY na XX

Z drugiej strony, cofa (i zakładając Y jest całkowicie wolne od błędów - tak zwany złoty standard ) pozwala na badanie właściwości pomiarowe X . Na przykład można określić, czy instrument staje się tendencyjny, gdy wartość rzeczywista rośnie (lub maleje), oceniając, czy funkcja jest prosta czy zakrzywiona. X na YYX

Gdy próbuje zrozumieć właściwości przyrządu pomiarowego, rozumiejąc naturę błędu pomiarowego jest bardzo ważne, a można to zrobić przez regresję . Na przykład podczas sprawdzania homoscedastyczności można ustalić, czy błąd pomiaru zmienia się w zależności od poziomu prawdziwej wartości konstruktu. Często zdarza się, że w przypadku instrumentów występuje większy błąd pomiaru na krańcach jego zakresu niż w środku jego stosownego zakresu (tj. W jego „słabym punkcie”), więc można to ustalić lub określić, co jest najbardziej odpowiednie zasięg jest. Możesz także oszacować kwotęX na Ybłędu pomiaru w twoim instrumencie ze średnim kwadratem błędu (resztkowe odchylenie standardowe); oczywiście zakłada to homoscedastyczność, ale można również uzyskać szacunki w różnych punktach dopasowując funkcję resztkową , np. splajn . Y

Biorąc pod uwagę te rozważania, domyślam się, że jest lepsze, ale z pewnością zależy to od twoich celów. X na Y

gung - Przywróć Monikę
źródło
+1 Za rozpoznanie, że regresja na X wymaga błędów w zmiennych i że odpowiedź naprawdę wymaga zrozumienia celów analizy. YX
whuber
@ whuber Błędy w zmiennych nie są odpowiednie do przewidywania. Błędy w zmiennych są użyteczne, jeśli chcesz zrozumieć wielkość relacji, ale masz błędy pomiaru w X i Y. Do prognozowania X jest „znany bez błędu”, o ile jest zbierany w taki sam sposób w zestawie treningowym i zestaw prognoz.
Korone,
@Corone Masz rację, że błędy w zmiennych nie są dobre do przewidywania, ale nie jest to zalecane, o ile wiem. Rzeczywiście, właśnie dlatego naprawdę trzeba cofnąć instrument do laboratorium (który używa tylko OLS), a nie na odwrót. Proszę zapoznać się z referencją Draper & Smith, którą cytuję w innym komentarzu do tego wątku. Opieram się na sekcji 1.7 drugiego wydania.
whuber
@Corone, masz rację co do przewidywania / błędów w zmiennych, ale nie jest to dokładnie to, co chciałem powiedzieć. Spróbuję wymyślić lepszy sposób na sformułowanie tego.
Gung - Przywróć Monikę
4

Prognozowanie i prognozowanie

Tak, masz rację, kiedy postrzegasz to jako problem przewidywania, regresja Y-on-X da model taki, że biorąc pod uwagę pomiar przyrządu, możesz dokonać obiektywnej oceny dokładnego pomiaru laboratoryjnego, bez wykonywania procedury laboratoryjnej .

mi[Y|X]

Może się to wydawać sprzeczne z intuicją, ponieważ struktura błędów nie jest „prawdziwa”. Zakładając, że metoda laboratoryjna jest złotą metodą bezbłędną, wówczas „wiemy”, że prawdziwym modelem generującym dane jest

Xja=βYja+ϵja

Yjaϵjami[ϵ]=0

mi[Yja|Xja]

Yja=Xja-ϵβ

Xja

mi[Yja|Xja]=1βXja-1βmi[ϵja|Xja]

mi[ϵja|Xja]ϵX

Oczywiście, bez utraty ogólności możemy pozwolić

ϵja=γXja+ηja

mi[ηja|X]=0

Yja=1βXja-γβXja-1βηja

Yja=1-γβXja-1βηja

ηββσ

Yja=αXja+ηja

β

Analiza instrumentu

Osoba, która zadała ci to pytanie, najwyraźniej nie chciała odpowiedzi powyżej, ponieważ twierdzi, że X-on-Y jest poprawną metodą, więc dlaczego mogliby chcieć? Najprawdopodobniej rozważali zadanie zrozumienia instrumentu. Jak omówiono w odpowiedzi Vincenta, jeśli chcesz wiedzieć, że chcą, aby instrument zachowywał się, X-on-Y jest właściwą drogą.

Wracając do pierwszego równania powyżej:

Xja=βYja+ϵja

mi[Xja|Yja]=YjaXβ

Kurczenie się

Ymi[Y|X]γmi[Y|X]Y. Prowadzi to następnie do takich koncepcji, jak regresja do średniej i empiryczne bayes.

Przykład w R Jednym ze sposobów na sprawdzenie, co się tutaj dzieje, jest zebranie pewnych danych i wypróbowanie metod. Poniższy kod porównuje X-on-Y z Y-on-X do prognozowania i kalibracji i można szybko zobaczyć, że X-on-Y nie jest dobry dla modelu predykcyjnego, ale jest prawidłową procedurą kalibracji.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Dwie linie regresji są wykreślane na podstawie danych

wprowadź opis zdjęcia tutaj

Następnie mierzona jest suma błędu kwadratów dla Y dla obu dopasowań na nowej próbce.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Alternatywnie próbkę można wygenerować przy ustalonym Y (w tym przypadku 4), a następnie przyjąć średnią z tych szacunków. Teraz możesz zobaczyć, że predyktor Y-on-X nie jest dobrze skalibrowany, a jego wartość oczekiwana jest znacznie niższa niż Y. Predyktor X-on-Y jest dobrze skalibrowany i ma wartość oczekiwaną zbliżoną do Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

Rozkład dwóch prognoz można zobaczyć na wykresie gęstości.

wprowadź opis zdjęcia tutaj

Korone
źródło
YXX
3
Y=β0+β1X+ϵVar(ϵ)=σ2).X=(Y-β0-ϵ)/β1X=α0+α1Y+δVar(δ)=σ2)α12)σ2)
1
β
2
Y może być zmienną losową w populacji ludzi, ale dla każdej osoby jest to parametr, który należy oszacować. Wyzerowanie Y na X zmniejsza każde oszacowanie Y w stosunku do średniej grupy, co zmniejsza średni błąd kwadratowy nad ludźmi, ale tworzy systematyczne uprzedzenia, które mogą być nie do przyjęcia z powodów etycznych lub prawnych. Regresowanie X na Y daje informacje, które można wykorzystać do skonstruowania obiektywnego przedziału ufności dla Y każdej osoby, ale te przedziały są zwykle szerokie, podobnie jak niebieski obszar na wykresie, podczas gdy przedział przewidywania od regresji Y na X jest węższy, ale stronniczy , jak czerwony.
Ray Koopman,
1
@RayKoopman, który jest cudownym sposobem na przedstawienie tego! Tak - Y na X polega na uzyskaniu najlepszej prognozy średnio dla wielu różnych Ys, podczas gdy kalibracja dotyczy uczciwości i bezstronności dla pojedynczego Y.
Korone 10.09.2013
2

To zależy od twoich założeń dotyczących wariancji X i wariancji Y dla zwykłych najmniejszych kwadratów. Jeśli Y ma jedyne źródło wariancji, a X ma zerową wariancję, użyj X, aby oszacować Y. Jeśli założenia są odwrotne (X ma jedyną wariancję, a Y ma zerową wariancję), użyj Y, aby oszacować X.

Jeśli zakłada się, że zarówno X, jak i Y mają wariancję, może być konieczne rozważenie Total najmniejszych kwadratów .

Dobry opis TLS został napisany pod tym linkiem . Artykuł jest nastawiony na handel, ale rozdział 3 dobrze opisuje TLS.

Edycja 1 (09/10/2013) ========================================= ======

Początkowo zakładałem, że jest to jakiś problem z pracą domową, więc nie sprecyzowałem dokładnie „odpowiedzi” na pytanie PO. Ale po przeczytaniu innych odpowiedzi wydaje się, że jest trochę bardziej szczegółowe.

Cytując część pytania PO:

„.... Poziomy są również mierzone przy użyciu bardzo dokładnej procedury laboratoryjnej…”

Powyższe stwierdzenie mówi, że istnieją dwa pomiary, jeden z przyrządu i jeden z procedury laboratoryjnej. Z oświadczenia wynika również, że wariancja dla procedury laboratoryjnej jest niska w porównaniu z wariancją dla instrumentu.

Kolejny cytat z pytania PO to:

„.... Miarą procedury laboratoryjnej jest y .....”

Zatem z powyższych dwóch stwierdzeń Y ma niższą wariancję. Zatem najmniej podatną na błędy techniką jest użycie Y do oszacowania X. „Podana odpowiedź” była poprawna.

rachunek_80
źródło
1
XY podlegają znacznym przypadkowym zmianom, dlatego prawdopodobnie nie powinieneś używać zwykłej regresji!
whuber
Nie, wybór regresji nie powinien być dokonywany na podstawie tego, gdzie jest wariancja - powinien być dokonywany na podstawie pytania, na które próbujesz odpowiedzieć. Jeśli używasz TLS, aby zbudować model predykcji dla danego X Y ty będą się mylić. TLS i podobne błędy w swojej zmiennych modele są o zrozumienie prawdziwej relacji między bazowych zmiennych / procesów - nie chodzi o prognozowanie
Korone
1
@Corone Chociaż masz rację, że czyjeś cele kierują wyborem procedur statystycznych, procedura musi być również odpowiednia dla modelu prawdopodobieństwa („gdzie jest wariancja”). Jeśli Twoim celem jest przewidzenie odczytu laboratoryjnego na podstawie odczytu przyrządu o wysokiej wariancji, zdecydowanie wybierz odpowiednią do tego procedurę: ale ta procedura nie jest prognozowaniem przy użyciu zwykłego dopasowania najmniejszych kwadratów i oszacowania wariancji.
whuber
1
@Corone - Zgadzam się, że technika regresji powinna opierać się na pytaniu, na które próbujesz odpowiedzieć, jednak wybrana technika zawiera założenia dotyczące wariancji zmiennych. Jeśli założenia wariancji wyboru nie pasują do twojej koncepcji modelu, oznacza to, że wybrałeś niewłaściwą technikę. Dlatego wymieniłem 3 możliwości (zero wariancji X do oszacowania Y; zero wariancji Y do oszacowania X; lub niezerowa wariancja X i Y).
bill_080,