Dlaczego nie możemy użyć

10

Wyobraź sobie, że mamy model regresji liniowej ze zmienną zależną y. Znajdziemy toRy2. Teraz wykonujemy kolejną regresję, ale tym razemlog(y)i podobnie znajdź Rlog(y)2. Powiedziano mi, że nie mogę porównać obuR2aby zobaczyć, który model jest bardziej odpowiedni. Dlaczego? Podany mi powód był taki, że będziemy porównywać zmienność różnych wielkości (różnych zmiennych zależnych). Nie jestem pewien, czy powinien to być wystarczający powód.

Czy jest też sposób na sformalizowanie tego?

Każda pomoc będzie mile widziana.

Stary człowiek na morzu.
źródło
1
Podejrzewam, że mogło to być omówione wcześniej w Cross Validated. Czy dokładnie przejrzałeś podobne wątki? Czy interesują Cię także różne zmienne zależne (takie jak PKB vs. cena ropy naftowej) lub transformacje tej samej zmiennej (PKB vs. wzrost PKB), czy jedno i drugie?
Richard Hardy
@RichardHardy Znalazłem kilka, ale myślę, że były styczne do mojego pytania. Tak jak ten: stats.stackexchange.com/questions/235117/… Odpowiedź tylko mówi tak, nie do końca wyjaśniając dlaczego.
Stary człowiek na morzu.
@RichardHardy Jestem zainteresowany transformacjami zmiennej zależnej.
Stary człowiek na morzu.
1
R2porównania mają sens tylko między modelami zagnieżdżonymi.
LVRao
@LVRao Dziękujemy za komentarz. Dlaczego tak jest
Stary człowiek na morzu.

Odpowiedzi:

8

To dobre pytanie, ponieważ „różne ilości” nie wydają się dobrym wytłumaczeniem.

Istnieją dwa ważne powody, aby zachować ostrożność podczas używania R2aby porównać te modele: jest zbyt surowe (tak naprawdę nie ocenia dobroci dopasowania ) i będzie nieodpowiednie dla co najmniej jednego z modeli. Ta odpowiedź rozwiązuje ten drugi problem.


Traktowanie teoretyczne

R2porównuje wariancję reszt modelu z wariancją odpowiedzi. Wariancja to średnie kwadratowe odchylenie addytywne od dopasowania. Jako takie możemy zrozumiećR2 jako porównanie dwóch modeli odpowiedzi y.

Model „bazowy” to

(1)yi=μ+δi

gdzie μ jest parametrem (teoretyczna średnia odpowiedź) i δi są niezależnymi losowymi „błędami”, z których każdy ma zerową średnią i wspólną wariancję τ2.

Model regresji liniowej wprowadza wektoryxi jako zmienne objaśniające:

(2)yi=β0+xiβ+εi.

Numer β0 i wektor βsą parametrami (punkt przecięcia i „nachylenie”). Theεi ponownie są to niezależne losowe błędy, każdy o zerowej średniej i wspólnej wariancji σ2.

R2 szacuje zmniejszenie wariancji, τ2σ2, w porównaniu do pierwotnej wariancji τ2.

Kiedy bierzesz logarytmy i używasz najmniejszych kwadratów, aby dopasować model , domyślnie porównujesz relację formy

(1a)log(yi)=ν+ζi

do jednego z formularzy

(2a)log(yi)=γ0+xiγ+ηi.

Są jak modele (1) i (2)ale z odpowiedziami dziennika. Nie są one jednak równoważne z pierwszymi dwoma modelami. Na przykład potęgowanie obu stron(2a) dałbym

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

Warunki błędu exp(ηi)teraz pomnóż podstawową relacjęyi=exp(γ0+xiγ). W konsekwencji występują wariancje odpowiedzi

Var(yi)=exp(γ0+xiγ)2Var(eηi).

Rozbieżności zależą od xi. To nie jest model(2), który zakłada, że ​​wszystkie wariancje są równe stałej σ2.

Zwykle tylko jeden z tych zestawów modeli może być rozsądnym opisem danych. Stosowanie drugiego zestawu(1a) i (2a) kiedy pierwszy zestaw (1) i (2)jest dobrym modelem, lub pierwszy, gdy drugi jest dobry, sprowadza się do pracy z nieliniowym, heteroscedastycznym zestawem danych, który dlatego powinien być źle dopasowany do regresji liniowej. Gdy zachodzi którakolwiek z tych sytuacji, możemy oczekiwać, że lepszy model pokaże większyR2. A jeśli tak nie jest? Czy nadal możemy oczekiwać większegoR2 aby pomóc nam zidentyfikować lepszy model?

Analiza

W pewnym sensie nie jest to dobre pytanie, ponieważ jeśli żaden model nie jest odpowiedni, powinniśmy znaleźć trzeci model. Jednak kwestia przed nami dotyczy użytecznościR2pomagając nam w podjęciu tej determinacji. Co więcej, wiele osób myśli najpierw o kształcie relacji między nimix i y- czy jest liniowy, logarytmiczny, czy jest czymś innym - bez obawy o charakterystykę błędów regresji εi lub ηi. Rozważmy zatem sytuację, w której nasz model poprawia związek, ale myli się co do jego struktury błędów lub odwrotnie .

Taki model (który często występuje) jest najmniejszym kwadratem dopasowanym do relacji wykładniczej,

(3)yi=exp(α0+xiα)+θi.

Teraz logarytm z yjest funkcją liniowąx, jak w (2a), ale warunki błęduθisą addytywne , jak w(2). W takich sprawachR2 może nas wprowadzić w błąd przy wyborze modelu z niewłaściwym stosunkiem między x i y.

Oto ilustracja modelu (3). Tam są300 obserwacje dla xi (1 wektor równo rozdzielony między 1.0 i 1.6). Lewy panel pokazuje oryginał(x,y) dane, podczas gdy prawy panel pokazuje (x,log(y))przekształcone dane. Przerywane czerwone linie pokazują prawdziwą zależność, podczas gdy ciągłe niebieskie linie pokazują pasowanie najmniejszych kwadratów. Dane i prawdziwa relacja są takie same w obu panelach: różnią się tylko modele i ich dopasowanie.

Wykresy rozrzutu

Dopasowanie do logarytmicznych odpowiedzi po prawej wyraźnie jest dobre: ​​prawie pokrywa się z prawdziwą relacją i obie są liniowe. Dopasowanie do pierwotnych odpowiedzi po lewej wyraźnie jest gorsze: jest liniowe, podczas gdy prawdziwa relacja jest wykładnicza. Niestety ma znacznie większą wartośćR2: 0.70 w porównaniu do 0.56. Dlatego nie powinniśmy ufaćR2aby doprowadzić nas do lepszego modelu. Dlatego nie powinniśmy być zadowoleni z dopasowania, nawet gdyR2 jest „wysoki” (aw wielu aplikacjach wartość 0.70 byłoby rzeczywiście uważane za wysokie).


Nawiasem mówiąc, lepszym sposobem oceny tych modeli są testy poprawności dopasowania (które wskazywałyby na wyższość modelu logu po prawej) i wykresy diagnostyczne dla stacjonarności reszt (które uwypukliłyby problemy w obu modelach). Takie oceny naturalnie prowadziłyby albo do ważonego dopasowania najmniejszych kwadratówlog(y) lub bezpośrednio do modelu (3) sam, który musiałby być dopasowany przy użyciu metody największego prawdopodobieństwa lub nieliniowych metod najmniejszych kwadratów.

Whuber
źródło
Krytyka dotycząca R ^ 2 jest niesprawiedliwa. Jak każde narzędzie, jego użycie powinno być dobrze zrozumiane. W powyższych przykładach R ^ 2 podaje prawidłowy komunikat. R ^ 2 w pewien sposób wybiera lepszy stosunek sygnału do szumu. Oczywiście nie jest to oczywiste, gdy umieścisz obok siebie dwa wykresy o zupełnie innej skali. W rzeczywistości sygnał po lewej stronie jest bardzo silny w porównaniu do odchyleń hałasu.
Cagdas Ozgenc
@Cagdas Wydaje się, że oferujesz wewnętrznie sprzeczne przesłanie. Ponieważ dwie wykresy są nieuchronnie w dwóch różnych skalach - jedna przedstawia oryginalne odpowiedzi, a druga ich logarytmy - następnie twierdzenie, że coś jest „nieoczywiste” z powodu tego nieuniknionego faktu, nie wydaje się potwierdzać twojego przypadku. Twierdzenie, że ta odpowiedź jest „niesprawiedliwa”, naprawdę nie wytrzymuje w świetle wyraźnej analizy modeli, które zaoferowałem.
whuber
W tym, co mówię, nie ma sprzeczności. R ^ 2 wybiera wyższy stosunek sygnału do szumu. Tak właśnie działa. Próba przekształcenia go w coś innego i twierdzenie, że nie działa, jest całkowicie błędne. Wszystkie krytyki dotyczące R ^ 2 odnoszą się również do innych wskaźników dobroci dopasowania, gdy są stosowane do różnych zmiennych odpowiedzi, ale z jakiegoś powodu R ^ 2 jest wybrane jako kozioł ofiarny.
Cagdas Ozgenc
Naprawdę chciałbym wiedzieć, @Cagdas, tylko jaką część tej analizy postrzegasz jako „kozioł ofiarny” R2. O ile mogę powiedzieć, jest to beznamiętna i poprawna technicznie ocena tego, coR2jest i nie jest w stanie tego dokonać. Nie rozumiem, jak istotne jest odniesienie do „stosunku sygnału do szumu”, gdy w rzeczywistości przykład wyraźnie pokazuje, w jaki sposób lepszy model (w opisanym przeze mnie znaczeniu, który jest zgodny z tym, co większość ludzi rozumie przez „dobroć dopasowania”) najgorszyR2.
whuber
2
Dziękuję za waszą pomoc. Przepraszam za późną akceptację, ostatnio nie miałem dużo wolnego czasu. ;)
Stary człowiek na morzu.