Regresja z odwrotną zmienną niezależną

Załóżmy, że mam wektor zmiennych zależnych i wektor zmiennej niezależnej. Kiedy jest wykreślane względem , widzę, że istnieje między nimi zależność liniowa (trend wzrostowy). Teraz, to oznacza również, że istnieje liniowa tendencja spadkowa między i . $N$ $Y$ $N$ $X$ $Y$ $\frac{1}{X}$ $Y$ $X$

Teraz, jeśli uruchomię regresję: i uzyskam dopasowaną wartość $Y = \beta * X + \epsilon$ $\hat{Y} = \hat{\beta}X$

Następnie uruchamiam regresję: i otrzymuję dopasowaną wartość $Y = \alpha * \frac{1}{X} + \epsilon$ $\tilde{Y} = \hat{\alpha} \frac{1}{X}$

Czy dwie przewidywane wartości, i będą w przybliżeniu równe? $\hat{Y}$ $\tilde{Y}$

regression data-transformation linear-model Mayou
źródło

Odpowiedzi:

Kiedy Y jest wykreślane względem , widzę, że istnieje między nimi zależność liniowa (trend wzrostowy). Oznacza to również, że istnieje liniowy trend spadkowy między Y i X $\frac{1}{X}$

Ostatnie zdanie jest błędne: istnieje tendencja spadkowa, ale nie jest ona liniowa: Y ~ 1 / X Y ~ X

I zastosowano w funkcji powiększonej o niewielkich zakłóceń . Jak widać, podczas gdy wykres względem daje zachowanie liniowe, względem jest dalekie od liniowego. $f(x) = \frac{1}{x}$ $Y$ $Y$ $\frac{1}{X}$ $Y$ $X$

(@whuber wskazuje, że wykres względem nie wygląda na homoscedastyczny. Myślę, że wydaje się mieć większą wariancję dla niskiego ponieważ znacznie większa gęstość obserwacji prowadzi do większego zakresu, który jest zasadniczo tym, co my spostrzegam. Właściwie dane są homoscedastyczne: Kiedyś generowałem dane, więc nie ma zależności od wielkości ) $Y$ $\frac{1}{X}$ $Y$ Y = 1 / X + rnorm (length (X), sd = 0.1) $X$

Tak więc ogólnie związek jest bardzo nieliniowy. To znaczy, chyba że zakres jest tak wąski, że można przybliżaćOto przykład: $X$ $\frac{d \frac{1}{x}}{dx} = - \frac{1}{x^2} \approx const.$

Y ~ 1 / X Y ~ X

Dolna linia:

Zasadniczo bardzo trudno jest aproksymować funkcję typu za pomocą funkcji liniowej lub wielomianowej. I bez terminu offset nigdy nie uzyskasz rozsądnego przybliżenia. $\frac{1}{X}$
Jeśli przedział jest wystarczająco wąski, aby umożliwić przybliżenie liniowe, i tak nie będziesz w stanie zgadnąć, że relacja powinna być a nie liniowa ( ). $X$ $\frac{1}{X}$ $X$

cbeleites niezadowoleni z SX
źródło

Zaczynasz od niepoprawnego założenia: OP nigdy nie twierdził, że i są liniowo powiązane. Jedynym stwierdzeniem było to, że i wydają się być liniowo powiązane (z nachyleniem ujemnym). To oczywiście oznacza, że i są nieliniowo powiązane. Myślę, że jest to tak poważne odejście od tego, co stawia pytanie, że pozostała część twojego postu może tylko wprowadzić w błąd czytelników.

Y

$Y$

X

$X$

Y

$Y$

1 / X

$1/X$

Y

$Y$

X

$X$

whuber

@whuber: Bardzo mi przykro, ale wydaje mi się, że jestem teraz dość gęsty. Pytanie brzmi: „Kiedy Y jest wykreślane w stosunku do 1 / X, widzę, że istnieje zależność liniowa (trend wzrostowy)”. Właśnie to starałem się przedstawić na 1. i 3. obrazie: Y powyżej 1 / X rośnie liniowo. Następnie narysowałem odpowiednie Y względem X (nieliniowe, malejące). Gdzie źle rozumiem OP?

cbeleites niezadowoleni z SX

Nie przepraszaj - po prostu źle odczytałem twój post (transponując etykiety osi X na pierwszym zdjęciu)! Wina jest moja. Dlatego też głosuję za odpowiedzią, która jest poprawna i zawiera informacje. Jeśli jednak masz szansę, możesz skomentować wpływ tej transformacji na homoscedastyczność (lub jej brak) reszt (które można wykryć na wykresie vs ).

Y

$Y$

1 / X

$1/X$

whuber

Dziękuję za spostrzeżenia na temat homoscedastyczności. Przekształcając zmienną niezależną , nie zmieniasz homoscedastyczności odpowiedzi - ale jej wygląd z pewnością może się zmienić, jak zauważyłeś, co warto wiedzieć. (Widzieliśmy to zjawisko w kilku innych postach, w których ludzie błędnie przypisują heteroscedastyczność zwykłym różnicom w grupach populacji.)

whuber

Bardzo dokładna odpowiedź i komentarze! Dzięki @cbeleites i @whuber!

Mayou,

Nie widzę powodu, by były w przybliżeniu „w przybliżeniu równe” - ale co dokładnie rozumiesz przez w przybliżeniu równe?

Oto przykład zabawki:

library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
      geom_point() +
      geom_smooth(method="lm", formula=y ~ 0 + x) +  # Blue, OP's y hat
      geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red"))  # Red, OP's y tilde
p

Zdjęcie:

Powiedziałbym, że są dalekie od „w przybliżeniu równych”

Model „niebieski” byłby o wiele lepszy, gdyby pozwolono mu na przechwycenie (tzn. Stały) termin ...

Adrian
źródło

Trudno powiedzieć, co robisz z niebieskim modelem, ale z pewnością nie przypomina to, co opisuje OP! Czerwony jest znacznie bliżej sytuacji przedstawionej w pytaniu.

whuber

@cbeleites Brak przesunięcia wyjaśnia, co inaczej było raczej tajemnicą. Adrian, masz rację - ale wątpię, by twój przykład miał duży wpływ na dane PO. W poście opisano sytuację, w której wykres vs (bez żadnego przechwytywania) wydaje się być dobry, natomiast ilustrujesz sytuację, w której dobry związek występuje między a i oczywiście vs fit jest okropny.

Y

$Y$

1 / X

$1/X$

Y

$Y$

X

$X$

Y

$Y$

1 / X

$1/X$

whuber