Pułapki, których należy unikać podczas przekształcania danych?

15

Osiągnąłem silną liniową zależność między moją zmienną X i Y po podwójnej transformacji odpowiedzi. Model to YX ale przekształciłem go w YXX poprawyR2od .19 do .76.

Najwyraźniej zrobiłem porządną operację związaną z tym związkiem. Czy ktoś może dyskutować o pułapkach takich działań, takich jak niebezpieczeństwo nadmiernych przekształceń lub możliwe naruszenie zasad statystycznych?

Info5ek
źródło
1
Z tego, co masz, z samej algebry wygląda to jak . Czy możesz opublikować dane lub pokazać wykres? Czy istnieją naukowe powody, aby oczekiwać, że Y = 0, gdy X = 0 ? YX2Y=0X=0
Nick Cox,
1
@NickCox: Myślę, że jest niekonwencjonalną notacją dla E Y = β 0 + β 1 X ; być może PO mówi raczej R niż matematykę (oczywiście coś, czego należy zniechęcić). YXEY=β0+β1X
Scortchi - Przywróć Monikę
@Scortchi Obawiam się, że masz rację. Wyświetlanie danych pomogłoby w obu przypadkach.
Nick Cox,
W tym przypadku 0 X oznaczałoby 0 Y, ponieważ Y prowadzi do śmierci, a X jest całkowitą KM napędzaną przez wszystkich kierowców.
Info5ek,
2
@AaronHall To równanie niekoniecznie jest bezużyteczne, ponieważ (pomnożenie przez toX, co w niektórych sytuacjach może być potencjalnie prawdopodobnym modelem). JednakR2w postaci równania podanej w pytaniu nie jest dużo używać nie można porównać go z czymś wyposażonego w innej skali. (Nawiasem mówiąc, gdyby to było twoje zdanie na mojej odpowiedzi, przydatne byłoby wyjaśnienie tego, co uważasz za niewłaściwe w odpowiedzi).Y=β0X+β1X+XϵR2
Glen_b

Odpowiedzi:

20

Naprawdę nie można porównać przed i po, ponieważ podstawowa zmienność Y jest inny. Więc dosłownie można wziąć żadnego komfortu niezależnie od zmian w R 2R2YR2 . To nie mówi nic o wartości w porównaniu dwóch modeli.

Oba modele różnią się na kilka sposobów, więc oznaczają różne rzeczy - zakładają bardzo różne rzeczy na temat kształtu relacji i zmienności składnika błędu (rozpatrywanego w kategoriach relacji między i X ). Więc jeśli jesteś zainteresowany modelowaniem Y (jeśli samo Y ma znaczenie), przygotuj do tego dobry model. Jeśli jesteś zainteresowany modelowaniem YXYY (/Y ma znaczenie), stwórz dobry model do tego. JeśliY ma znaczenie, a następnie stwórz do tego dobry model. Porównaj jednak wszystkie konkurencyjne modele w porównywalnych skalach. R2w różnych odpowiedziach po prostu nie są porównywalne.Y/XR2

Jeśli po prostu próbujesz różnych relacji w nadziei na znalezienie transformacji z wysokim - lub jakąkolwiek inną miarą „dobrego dopasowania” - na właściwości wszelkich wniosków, które chciałbyś przeprowadzić, będzie miało wpływ istnienie ten proces wyszukiwania.R2

Oszacowania będą miały tendencję do odchylania się od zera, standardowe błędy będą zbyt małe, wartości p będą zbyt małe, przedziały ufności będą zbyt wąskie. Twoje modele będą średnio wydawać się „zbyt dobre” (w tym sensie, że ich zachowanie poza próbą będzie rozczarowujące w porównaniu z zachowaniem w próbie).

Aby uniknąć tego rodzaju nadmiernego dopasowania, musisz, jeśli to możliwe, przeprowadzić identyfikację modelu i oszacowanie różnych podzbiorów danych (i ocenę modelu na trzeciej). Jeśli powtórzysz ten rodzaj procedury dla wielu „podziałów” danych pobranych losowo, uzyskasz lepsze wyobrażenie o odtwarzalności wyników.

Jest tu wiele postów z odpowiednimi uwagami na te tematy: warto wyszukać niektóre wyszukiwania.

(Jeśli masz dobre a priori przyczyn wyborze konkretnego transformację, to jest inna sprawa. Ale szukając przestrzeni przekształceń, aby znaleźć coś, co pasuje wykonuje wszelkiego rodzaju „dane podsłuchiwanie” problemy typu z nim).

Glen_b - Przywróć Monikę
źródło
Dzięki za odpowiedź Glen. Powodem, dla którego dokonałem tej transformacji jest to, że jako jedyna nie dała mi stronniczych resztek. Próbowałem standardowego y / x, log (y), sqrt (y) i różnych ich kombinacji. Wszystko to spowodowało opadający wykres resztkowy. Dopiero po przeprowadzeniu dwustopniowej transformacji dostałem losowo pojawiające się pozostałości. Jednak twierdzisz, że ten model jest potencjalnie nieinformacyjny w przypadku danych nieobjętych próbą, ponieważ mogłem po prostu nadpisać dane, prawda?
Info5ek,
Cóż, tak, ale jest to problem z dowolną specyfikacją modelu podczas patrzenia na dane, więc zdarza się często. W wielu sytuacjach trudno jest tego uniknąć, w którym może pojawić się podział próbek. (Walidacja krzyżowa może być przydatnym narzędziem w takich sytuacjach.)
Glen_b -Reinstate Monica
Przydatne byłoby poznanie przyczyn przegłosowania. Co jest nie tak z odpowiedzią? Być może można to poprawić. (Jeśli nie można tego poprawić, dlaczego głosowanie negatywne?)
Glen_b
1
@Glen_b: Trudne jest sprawdzenie krzyżowe źle zdefiniowanej procedury - w każdej zakładce trzeba powtarzać proces patrzenia na diagnostykę, wymyślania kolejnej transformacji, gdy ci się nie podobają, próbowania tego i tak dalej.
Scortchi - Przywróć Monikę
1
@Scortchi Tak, jeśli transformacje nie zostaną wybrane ze znanej puli kandydatów według jakiejś prostej reguły, może to być niemożliwe.
Glen_b
16

Istnieje większy problem niż te zidentyfikowane przez @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

I dostaję 0,49 i wartość P, która wynosi 5,5 × 10 -R2 .5.5×10-16

Masz po obu stronach równania.X

Peter Flom - Przywróć Monikę
źródło
2
Nie jestem pewien, czy to inny problem niż brak dobrych a priori powodów do wyrażenia modelu w jedną stronę, a nie w drugą. Jeśli pozwolisz iZ=W=YXZ=XYXZ2)
4
W.ZYX
1
Tak, ale tutaj, regresja rozpoczął X i Y. Czy to nie ma znaczenia, które zmienne są, że tak powiem, te zmienne?
Peter Flom - Przywróć Monikę
2
YW
4
Podnosisz dobre zdanie na temat W & Z, @Scortchi, ale wydaje mi się, że ma znaczenie to, co uważasz za zmienne, na których ci zależy, i jakie zmienne stworzyłeś, aby uzyskać lepszy model. Jakie rzeczywiste zmienne są określone przez znaczenie X itd., W kontekście pytania merytorycznego. Wnioskuję z tekstu, że OP chce zrozumieć relację b / t X i Y, i stworzyłem W i Z, aby poprawić dopasowanie modelu. Tj. W tym konkretnym przypadku wydaje mi się, że Peter ma rację, nie możesz próbować ulepszać swojego modelu, umieszczając X po obu stronach.
gung - Przywróć Monikę
4

Przykład @ Petera składa się z dwóch elementów, które mogą być przydatne do rozplątania:

(1) Błędna specyfikacja modelu. Modele

yi=β0+β1xi+εi(1)

I

wi=γ0+γ1zi+ζi(2)

wi=yixizi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

If Y is assumed to be a Gaussian random variable independent of X, then that's a special case of Model 1 in which β1=0, & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z, you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew Y & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W można aproksymować metodą delta:

miYx=miYzβ0+VarY8β03)/2)z

Jest to rzeczywiście funkcja z.

Idąc za przykładem ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

Ani Model 1, ani Model 2 nie nadają się do przewidywania y od x, ale oba są w porządku do przewidywania w od z: błędna specyfikacja nie wyrządziła tutaj wiele szkód (co nie znaczy, że nigdy nie będzie - kiedy to zrobi, powinno to wynikać z diagnostyki modelu). Modele-2-ery szybciej wpadną w kłopoty, gdy dokonają ekstrapolacji dalej od danych - tak jak w przypadku kursu, jeśli model jest błędny. Niektórzy czerpią przyjemność z kontemplacji małych gwiazd, które umieszczają obok swoich wartości p, podczas gdy niektórzy Model-1-ery gorzko je urażają - suma ludzkiego szczęścia pozostaje taka sama. I oczywiście Model-2-ers, patrząc na fabułęw przeciwko z, może pokusić się, aby interweniować w celu zwiększenia z zmniejszy się w—Możemy tylko mieć nadzieję i modlić się, aby nie ulegli pokusie, przed którą wszyscy nieustannie nas ostrzegano; pomieszanie korelacji z przyczyną.

Aldrich (2005), „Korelacje autentyczne i fałszywe w Pearsonie i Yule”, Statistics Science , 10 , 4 przedstawia interesującą historyczną perspektywę tych zagadnień.

Scortchi - Przywróć Monikę
źródło
3

Ważna jest wcześniejsza odpowiedź @Glen_b. Zabawa transformacjami zniekształca każdą część wnioskowania statystycznego i skutkujeR2)to jest stronnicze wysoko. Krótko mówiąc, brak parametru w modelu dla wszystkiego, czego nie wiesz, da fałszywe poczucie precyzji. Dlatego splajny regresji są teraz tak popularne.

Frank Harrell
źródło