Osiągnąłem silną liniową zależność między moją zmienną i po podwójnej transformacji odpowiedzi. Model to ale przekształciłem go w poprawyod .19 do .76.
Najwyraźniej zrobiłem porządną operację związaną z tym związkiem. Czy ktoś może dyskutować o pułapkach takich działań, takich jak niebezpieczeństwo nadmiernych przekształceń lub możliwe naruszenie zasad statystycznych?
regression
data-transformation
r-squared
Info5ek
źródło
źródło
Odpowiedzi:
Naprawdę nie można porównać przed i po, ponieważ podstawowa zmienność Y jest inny. Więc dosłownie można wziąć żadnego komfortu niezależnie od zmian w R 2R2 Y R2 . To nie mówi nic o wartości w porównaniu dwóch modeli.
Oba modele różnią się na kilka sposobów, więc oznaczają różne rzeczy - zakładają bardzo różne rzeczy na temat kształtu relacji i zmienności składnika błędu (rozpatrywanego w kategoriach relacji między i X ). Więc jeśli jesteś zainteresowany modelowaniem Y (jeśli samo Y ma znaczenie), przygotuj do tego dobry model. Jeśli jesteś zainteresowany modelowaniem √Y X Y Y (/ √Y−−√ ma znaczenie), stwórz dobry model do tego. Jeśli √Y−−√ ma znaczenie, a następnie stwórz do tego dobry model. Porównaj jednak wszystkie konkurencyjne modele w porównywalnych skalach. R2w różnych odpowiedziach po prostu nie są porównywalne.Y/X−−−−√ R2
Jeśli po prostu próbujesz różnych relacji w nadziei na znalezienie transformacji z wysokim - lub jakąkolwiek inną miarą „dobrego dopasowania” - na właściwości wszelkich wniosków, które chciałbyś przeprowadzić, będzie miało wpływ istnienie ten proces wyszukiwania.R2
Oszacowania będą miały tendencję do odchylania się od zera, standardowe błędy będą zbyt małe, wartości p będą zbyt małe, przedziały ufności będą zbyt wąskie. Twoje modele będą średnio wydawać się „zbyt dobre” (w tym sensie, że ich zachowanie poza próbą będzie rozczarowujące w porównaniu z zachowaniem w próbie).
Aby uniknąć tego rodzaju nadmiernego dopasowania, musisz, jeśli to możliwe, przeprowadzić identyfikację modelu i oszacowanie różnych podzbiorów danych (i ocenę modelu na trzeciej). Jeśli powtórzysz ten rodzaj procedury dla wielu „podziałów” danych pobranych losowo, uzyskasz lepsze wyobrażenie o odtwarzalności wyników.
Jest tu wiele postów z odpowiednimi uwagami na te tematy: warto wyszukać niektóre wyszukiwania.
(Jeśli masz dobre a priori przyczyn wyborze konkretnego transformację, to jest inna sprawa. Ale szukając przestrzeni przekształceń, aby znaleźć coś, co pasuje wykonuje wszelkiego rodzaju „dane podsłuchiwanie” problemy typu z nim).
źródło
Istnieje większy problem niż te zidentyfikowane przez @Glen_b.
I dostaję 0,49 i wartość P, która wynosi 5,5 × 10 -R2 .5,5 × 10- 16
Masz po obu stronach równania.X
źródło
Przykład @ Petera składa się z dwóch elementów, które mogą być przydatne do rozplątania:
(1) Błędna specyfikacja modelu. Modele
I
IfY is assumed to be a Gaussian random variable independent of X , then that's a special case of Model 1 in which β1=0 , & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.
(2) Transformation of the response. If you knewY & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W można aproksymować metodą delta:
Jest to rzeczywiście funkcjaz .
Idąc za przykładem ...
Ani Model 1, ani Model 2 nie nadają się do przewidywaniay od x , ale oba są w porządku do przewidywania w od z : błędna specyfikacja nie wyrządziła tutaj wiele szkód (co nie znaczy, że nigdy nie będzie - kiedy to zrobi, powinno to wynikać z diagnostyki modelu). Modele-2-ery szybciej wpadną w kłopoty, gdy dokonają ekstrapolacji dalej od danych - tak jak w przypadku kursu, jeśli model jest błędny. Niektórzy czerpią przyjemność z kontemplacji małych gwiazd, które umieszczają obok swoich wartości p, podczas gdy niektórzy Model-1-ery gorzko je urażają - suma ludzkiego szczęścia pozostaje taka sama. I oczywiście Model-2-ers, patrząc na fabułęw przeciwko z , może pokusić się, aby interweniować w celu zwiększenia z zmniejszy się w —Możemy tylko mieć nadzieję i modlić się, aby nie ulegli pokusie, przed którą wszyscy nieustannie nas ostrzegano; pomieszanie korelacji z przyczyną.
Aldrich (2005), „Korelacje autentyczne i fałszywe w Pearsonie i Yule”, Statistics Science , 10 , 4 przedstawia interesującą historyczną perspektywę tych zagadnień.
źródło
Ważna jest wcześniejsza odpowiedź @Glen_b. Zabawa transformacjami zniekształca każdą część wnioskowania statystycznego i skutkujeR2) to jest stronnicze wysoko. Krótko mówiąc, brak parametru w modelu dla wszystkiego, czego nie wiesz, da fałszywe poczucie precyzji. Dlatego splajny regresji są teraz tak popularne.
źródło