Przyrząd używany do pomiaru poziomu glukozy we krwi osoby jest monitorowany na losowej próbce 10 osób. Poziomy są również mierzone przy użyciu bardzo dokładnej procedury laboratoryjnej. Miara przyrządu jest oznaczona przez x. Miarą procedury laboratoryjnej jest y.
Osobiście uważam, że y na x jest bardziej poprawne, ponieważ intencją jest wykorzystanie odczytów przyrządu do przewidywania odczytów laboratoryjnych. Y na x minimalizuje błędy takich prognoz.
Ale odpowiedzią było x na y.
[self-study]
znacznik.Odpowiedzi:
Wiele prac laboratoryjnych, zwłaszcza eksperymenty z testowaniem przyrządów, stosuje taką regresję x.
Twierdzą, że z gromadzenia danych w eksperymencie kontrolowane są warunki yi uzyskujemy x z odczytu przyrządu (wprowadzając w nim jakiś błąd). Jest to oryginalny model fizyczny eksperymentu, więc bardziej odpowiedni jest błąd x ~ y +.
Aby zminimalizować błąd eksperymentu, czasami, gdy y jest kontrolowany w tych samych warunkach, x jest mierzone kilkakrotnie (lub powtarzany eksperyment). Ta procedura może pomóc ci zrozumieć logikę, która się za nimi kryje, i lepiej znaleźć błąd x ~ y +.
źródło
Jak to zwykle bywa, różne analizy odpowiadają na różne pytania. Zarówno i X na Y mogą być tutaj prawidłowe, po prostu upewnij się, że Twoja analiza odpowiada pytaniu, na które chcesz odpowiedzieć. (Aby uzyskać więcej informacji na ten temat, możesz przeczytać moją odpowiedź tutaj: Jaka jest różnica między regresją liniową na Y z X i X z Y? )Y na X X na Y
Masz rację, że jeśli będzie wszystko, co chcesz zrobić, to przewidzieć najbardziej prawdopodobny wartość podaną wiedzę o X wartości, byś regres Y na X . Jeśli jednak chcesz zrozumieć, w jaki sposób te miary są ze sobą powiązane, możesz zastosować podejście oparte na błędach zmiennych , ponieważ uważasz, że w X występuje błąd pomiaru .Y X Y na X X
Z drugiej strony, cofa (i zakładając Y jest całkowicie wolne od błędów - tak zwany złoty standard ) pozwala na badanie właściwości pomiarowe X . Na przykład można określić, czy instrument staje się tendencyjny, gdy wartość rzeczywista rośnie (lub maleje), oceniając, czy funkcja jest prosta czy zakrzywiona.X na Y Y X
Gdy próbuje zrozumieć właściwości przyrządu pomiarowego, rozumiejąc naturę błędu pomiarowego jest bardzo ważne, a można to zrobić przez regresję . Na przykład podczas sprawdzania homoscedastyczności można ustalić, czy błąd pomiaru zmienia się w zależności od poziomu prawdziwej wartości konstruktu. Często zdarza się, że w przypadku instrumentów występuje większy błąd pomiaru na krańcach jego zakresu niż w środku jego stosownego zakresu (tj. W jego „słabym punkcie”), więc można to ustalić lub określić, co jest najbardziej odpowiednie zasięg jest. Możesz także oszacować kwotęX na Y błędu pomiaru w twoim instrumencie ze średnim kwadratem błędu (resztkowe odchylenie standardowe); oczywiście zakłada to homoscedastyczność, ale można również uzyskać szacunki w różnych punktach dopasowując funkcję resztkową , np. splajn . Y
Biorąc pod uwagę te rozważania, domyślam się, że jest lepsze, ale z pewnością zależy to od twoich celów.X na Y
źródło
Prognozowanie i prognozowanie
Tak, masz rację, kiedy postrzegasz to jako problem przewidywania, regresja Y-on-X da model taki, że biorąc pod uwagę pomiar przyrządu, możesz dokonać obiektywnej oceny dokładnego pomiaru laboratoryjnego, bez wykonywania procedury laboratoryjnej .
Może się to wydawać sprzeczne z intuicją, ponieważ struktura błędów nie jest „prawdziwa”. Zakładając, że metoda laboratoryjna jest złotą metodą bezbłędną, wówczas „wiemy”, że prawdziwym modelem generującym dane jest
Oczywiście, bez utraty ogólności możemy pozwolić
Analiza instrumentu
Osoba, która zadała ci to pytanie, najwyraźniej nie chciała odpowiedzi powyżej, ponieważ twierdzi, że X-on-Y jest poprawną metodą, więc dlaczego mogliby chcieć? Najprawdopodobniej rozważali zadanie zrozumienia instrumentu. Jak omówiono w odpowiedzi Vincenta, jeśli chcesz wiedzieć, że chcą, aby instrument zachowywał się, X-on-Y jest właściwą drogą.
Wracając do pierwszego równania powyżej:
Kurczenie się
Przykład w R Jednym ze sposobów na sprawdzenie, co się tutaj dzieje, jest zebranie pewnych danych i wypróbowanie metod. Poniższy kod porównuje X-on-Y z Y-on-X do prognozowania i kalibracji i można szybko zobaczyć, że X-on-Y nie jest dobry dla modelu predykcyjnego, ale jest prawidłową procedurą kalibracji.
Dwie linie regresji są wykreślane na podstawie danych
Następnie mierzona jest suma błędu kwadratów dla Y dla obu dopasowań na nowej próbce.
Alternatywnie próbkę można wygenerować przy ustalonym Y (w tym przypadku 4), a następnie przyjąć średnią z tych szacunków. Teraz możesz zobaczyć, że predyktor Y-on-X nie jest dobrze skalibrowany, a jego wartość oczekiwana jest znacznie niższa niż Y. Predyktor X-on-Y jest dobrze skalibrowany i ma wartość oczekiwaną zbliżoną do Y.
Rozkład dwóch prognoz można zobaczyć na wykresie gęstości.
źródło
To zależy od twoich założeń dotyczących wariancji X i wariancji Y dla zwykłych najmniejszych kwadratów. Jeśli Y ma jedyne źródło wariancji, a X ma zerową wariancję, użyj X, aby oszacować Y. Jeśli założenia są odwrotne (X ma jedyną wariancję, a Y ma zerową wariancję), użyj Y, aby oszacować X.
Jeśli zakłada się, że zarówno X, jak i Y mają wariancję, może być konieczne rozważenie Total najmniejszych kwadratów .
Dobry opis TLS został napisany pod tym linkiem . Artykuł jest nastawiony na handel, ale rozdział 3 dobrze opisuje TLS.
Edycja 1 (09/10/2013) ========================================= ======
Początkowo zakładałem, że jest to jakiś problem z pracą domową, więc nie sprecyzowałem dokładnie „odpowiedzi” na pytanie PO. Ale po przeczytaniu innych odpowiedzi wydaje się, że jest trochę bardziej szczegółowe.
Cytując część pytania PO:
„.... Poziomy są również mierzone przy użyciu bardzo dokładnej procedury laboratoryjnej…”
Powyższe stwierdzenie mówi, że istnieją dwa pomiary, jeden z przyrządu i jeden z procedury laboratoryjnej. Z oświadczenia wynika również, że wariancja dla procedury laboratoryjnej jest niska w porównaniu z wariancją dla instrumentu.
Kolejny cytat z pytania PO to:
„.... Miarą procedury laboratoryjnej jest y .....”
Zatem z powyższych dwóch stwierdzeń Y ma niższą wariancję. Zatem najmniej podatną na błędy techniką jest użycie Y do oszacowania X. „Podana odpowiedź” była poprawna.
źródło