Czy użyteczny czy niebezpieczny?

233

Przeglądałem notatki z wykładu Cosmy Shalizi (w szczególności rozdział 2.1.1 drugiego wykładu ) i przypomniano mi, że możesz uzyskać bardzo niskie nawet jeśli masz całkowicie liniowy model.R2

Parafrazując przykład Shaliziego: załóżmy, że masz model , gdzie znany jest . Następnie \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon], a wyjaśniona wariancja to ^ 2 \ Var [X] , więc R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Odnosi się to do 0 jako \ Var [X] \ rightarrow 0 i do 1 jako \ Var [X] \ rightarrow \ infty .aY=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

I odwrotnie, możesz uzyskać wysokie R2 nawet jeśli twój model jest zauważalnie nieliniowy. (Czy ktoś ma dobry przykład?)

Kiedy więc R2 jest użyteczną statystyką i kiedy należy ją zignorować?

raegtin
źródło
5
Zwróć uwagę na pokrewny wątek komentarza w innym niedawnym pytaniu
whuber
36
Nie mam nic statystycznego do dodania do doskonałych odpowiedzi (szczególnie tej autorstwa @whuber), ale myślę, że właściwą odpowiedzią jest „R-kwadrat: Przydatny i niebezpieczny”. Jak prawie każda statystyka.
Peter Flom
32
Odpowiedź na to pytanie brzmi: „Tak”
Fomite,
Zobacz jeszcze jedną odpowiedź na stats.stackexchange.com/a/265924/99274 .
Carl
Przykład ze skryptu nie jest zbyt przydatny, chyba że możesz nam powiedzieć, co to jest ? Jeśli jest stały, to twój argument jest niepoprawny, ponieważ Jednak jeśli nie jest stały , wykreśl względem dla małego i powiedz mi, że to liniowe ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan.

Odpowiedzi:

264

Aby odpowiedzieć na pierwsze pytanie , rozważ model

Y=X+sin(X)+ε

z iid o wartości średniej zero i skończonej wariancji. Gdy zakres (uważany za stały lub losowy) wzrasta, idzie do 1. Niemniej jednak, jeśli wariancja jest niewielka (około 1 lub mniej), dane są „zauważalnie nieliniowe”. Na wykresach .εXR2εvar(ε)=1

Krótki zasięg X

Szerszy zakres X

Nawiasem mówiąc, łatwym sposobem na uzyskanie małego jest podzielenie zmiennych niezależnych na wąskie zakresy. Regresja (przy użyciu dokładnie tego samego modelu ) w każdym zakresie będzie miała niski nawet jeśli pełna regresja oparta na wszystkich danych ma wysoką . Rozważenie tej sytuacji jest pouczającym ćwiczeniem i dobrym przygotowaniem do drugiego pytania.R 2 R 2R2R2R2

Oba poniższe wykresy wykorzystują te same dane. do pełnego regresji 0.86. na plasterki (o szerokości od 1/2 -5/2 do 5/2) to 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, .01 , .00, czytanie od lewej do prawej. Jeśli już, pasowania stają się lepsze w krojonej sytuacji, ponieważ 10 oddzielnych linii może ściślej dopasować się do danych w swoich wąskich zakresach. Mimo, że dla plastrów są znacznie poniżej pełnej , ani wytrzymałości związku, w liniowości , ani rzeczywiście jakiegokolwiek aspektu dane (poza zakres stosowany do regresji) uległ zmianie.R2R2R2R2X

Chmura punktów z pełną regresją

Plasterki chmury punktów z 10 regresjami

(Można by się sprzeciwić, że ta procedura krojenia zmienia rozkład To prawda, ale mimo to odpowiada najczęstszemu użyciu w modelowaniu efektów stałych i ujawnia stopień, w jakim mówi nam o wariancja w sytuacji efektów losowych. W szczególności, gdy jest zmuszony zmieniać się w mniejszym przedziale swojego naturalnego zakresu, zwykle spada.)XR2R2XXR2

Podstawowy problem z polega na tym, że zależy on od zbyt wielu rzeczy (nawet po skorygowaniu w regresji wielokrotnej), ale przede wszystkim od wariancji zmiennych niezależnych i wariancji reszt. Zwykle nie mówi nam nic o „liniowości”, „sile relacji” ani nawet „dobroci dopasowania” do porównywania sekwencji modeli.R2

Przez większość czasu można znaleźć lepszą statystykę niż . Aby wybrać model, możesz zajrzeć do AIC i BIC; aby wyrazić adekwatność modelu, spójrz na wariancję reszt. R2

To prowadzi nas wreszcie do drugiego pytania . Jedną z sytuacji, w których może mieć pewne zastosowanie, jest to, gdy zmienne niezależne są ustawione na wartości standardowe, zasadniczo kontrolując wpływ ich wariancji. Zatem jest tak naprawdę zastępstwem dla wariantu reszt, odpowiednio znormalizowanego.R21R2

Whuber
źródło
26
Cóż za niezwykle dokładna i responsywna odpowiedź @whuber
Peter Flom
Czy AIC i BIC nie dostosowują się wyraźnie do liczby szacowanych parametrów? Jeśli tak, porównanie z nieskorygowanym R ^ 2 wydaje się niesprawiedliwe. Więc pytam, czy twoja krytyka utrzymuje skorygowane R ^ 2? Wygląda na to, że gdybyś został ukarany za „krojenie”, że skorygowany R ^ 2 będzie mógł wrócić do mówienia o dobroci dopasowania modelu.
russellpierce
7
@dr Moja krytyka idealnie pasuje do skorygowanego . Jedyne przypadki, w których nie ma wielkiej różnicy między i skorygowany to kiedy używasz ładunki parametrów w porównaniu do danych. W przykładzie krojenia było prawie 1000 punktów danych, a krojenie dodało tylko 18 parametrów; korekty nie wpłynęłyby nawet na drugie miejsce po przecinku, chyba że w segmentach końcowych, gdzie było tylko kilkadziesiąt punktów danych: i obniżyłoby je, wzmacniając argument. R 2 R 2R2R2R2R2
whuber
5
Odpowiedź na pytanie zawarte w pierwszym komentarzu powinna zależeć od celu i istnieje kilka sposobów interpretacji „testowania zależności liniowej”. Jednym z nich jest sprawdzenie, czy współczynnik jest niezerowy. Innym jest, czy chcesz wiedzieć, czy istnieją dowody nieliniowości. (sam w sobie) nie jest szczególnie przydatny dla obu, chociaż wiemy, że wysoki z dużą ilością danych oznacza, że ​​ich wykres rozproszenia wygląda mniej więcej liniowo - jak mój drugi przykład lub jak w przykładzie @ makro. Dla każdego celu istnieje odpowiedni test i związana z nim wartość p. R2R2
whuber
4
W drugim pytaniu powinniśmy zastanowić się, co może oznaczać „najlepsze” dopasowanie liniowe. Jeden kandydat będzie pasował, co minimalizuje resztkową sumę kwadratów. Możesz bezpiecznie użyć jako proxy, ale dlaczego nie zbadać (skorygowanego) samego błędu średniej kwadratowej? To bardziej przydatna statystyka. R2
whuber
47

Twój przykład ma zastosowanie tylko wtedy, gdy zmienna powinna znajdować się w modelu . Z pewnością nie ma zastosowania, gdy używa się zwykłych oszacowań metodą najmniejszych kwadratów. Aby to zobaczyć, trzeba pamiętać, że jeśli szacujemy przez najmniejszych kwadratów w przykładzie, otrzymujemy:aX a

s 2 X =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Gdzie to (przykładowa) wariancja i to średnia (próbka) zX ¯ X =1sX2=1Ni=1N(XiX¯)2XXX¯=1N.ja=1N.XjaX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Teraz drugi człon jest zawsze mniejszy niż (równy w limicie), więc otrzymujemy górną granicę dla wkładu do ze zmiennej :1 R 2 X11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

I tak, chyba że również, zobaczymy jako (ponieważ licznik idzie do zera, ale mianownik przechodzi do ). Dodatkowo możemy uzyskać zbieżność do czegoś pomiędzy a zależności od tego, jak szybko te dwa warunki się rozchodzą. Teraz powyższy termin na ogół różni się szybciej niż jeśli powinien być w modelu, i wolniej, jeśli nie powinien być w modelu. W obu przypadkach idzie we właściwych kierunkach.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

Zauważ też, że dla dowolnego skończonego zestawu danych (tj. Rzeczywistego) nigdy nie możemy mieć chyba że wszystkie błędy są dokładnie zerowe. Zasadniczo oznacza to, że jest miarą względną, a nie bezwzględną. Ponieważ chyba, że jest faktycznie równe , zawsze możemy znaleźć model lepiej dopasowany. Jest to prawdopodobnie „niebezpieczny” aspekt , ponieważ ponieważ jest skalowany w zakresie od do , wydaje się, że możemy interpolować go w absolutnym sensie.R2=1R2R21R201

Prawdopodobnie bardziej przydatne jest sprawdzenie, jak szybko spada podczas dodawania zmiennych do modelu. I wreszcie, nigdy nie należy go ignorować przy selekcji zmiennych, ponieważ jest faktycznie wystarczającą statystyką do selekcji zmiennych - zawiera wszystkie informacje o selekcji zmiennych zawarte w danych. Jedyne, co jest potrzebne, to wybrać spadek w który odpowiada „dopasowaniu błędów” - który zwykle zależy od wielkości próby i liczby zmiennych.R2R2R2

prawdopodobieństwo prawdopodobieństwa
źródło
4
+1 Dużo fajnych punktów. Obliczenia dodają ilościowe informacje do poprzednich odpowiedzi.
whuber
27

Jeśli mogę dodać przykład, kiedy jest niebezpieczny. Wiele lat temu pracowałem nad niektórymi danymi biometrycznymi i będąc młodym i głupim byłem zachwycony, gdy znalazłem pewne statystycznie znaczące wartości dla moich fantazyjnych regresji, które skonstruowałem za pomocą funkcji krokowych. Dopiero później, patrząc wstecz po mojej prezentacji dla dużej międzynarodowej publiczności, zdałem sobie sprawę, że biorąc pod uwagę ogromną różnorodność danych - w połączeniu z możliwą słabą reprezentacją próby w odniesieniu do populacji, 0,02 było całkowicie bez znaczenia nawet jeśli było to „istotne statystycznie” ...R2R2R2

Osoby pracujące ze statystykami muszą zrozumieć dane!

Sean
źródło
15
Żadna statystyka nie jest niebezpieczna, jeśli rozumiesz, co to znaczy. Przykład Seana nie ma nic wspólnego z kwadratem R, jest to ogólny problem zakochania się w znaczeniu statystycznym. Kiedy wykonujemy testy statystyczne w praktyce, interesują nas jedynie znaczące różnice. Dwie populacje nigdy nie mają identycznych rozkładów. Jeśli są bliskie równości, nie obchodzi nas to. Przy bardzo dużych próbkach możemy wykryć małe nieistotne różnice. Dlatego w moich konsultacjach dotyczących badań medycznych podkreślam różnicę między znaczeniem klinicznym a statystycznym.
Michael Chernick
11
Początkowo moi klienci często mylą się, że celem statystycznym jest znaczenie statystyczne. Należy wykazać, że tak nie jest.
Michael Chernick
Statystycznie istotny przy 0,02 oznacza po prostu, że posiadasz wystarczające dane, aby twierdzić, że nie wynosi 0. Ale jest bliskie 0. Tak więc istnieje bardzo niewielki związek między zmiennymi niezależnymi i zmiennymi zależnymi. R2R2
Michael Chernick
1
Absolutnie zgadzam się z Michaelem. Trochę znajomości statystyki może być niebezpieczna! :) Na podstawie tego wglądu wiele lat temu ciężko pracowałem, aby nie powtórzyć tego głupiego błędu, wykonując wiele badań, aby lepiej zrozumieć, co naprawdę oznaczają statystyki. Magister i doktorat z statystyki i nadal uważam, że mam jeszcze długą drogę do ukończenia studiów!
Sean
Dziękuję Sean. Doceniam twoje komentarze i pokorę.
Michael Chernick
16

Gdy mają jeden przewidywań jest dokładnie interpretować jako stosunek różnicy w zakresie , które mogą być wyjaśnione przez liniowym związku z . Tę interpretację należy wziąć pod uwagę, patrząc na wartość . Y X R 2R2YXR2

Możesz uzyskać duży z relacji nieliniowej tylko wtedy, gdy związek jest zbliżony do liniowego. Załóżmy na przykład: gdzie i . Jeśli wykonasz obliczenia Y = e X + ε X U n i f o r m ( 2 , 3 ) ε N ( 0 , 1 )R2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

okaże się, że jest to około (przybliżiłem to tylko przez symulację), mimo że związek wyraźnie nie jest liniowy. Powodem jest to, że wygląda okropnie podobnie jak funkcja liniowa w przedziale .e X ( 2 , 3 ).914eX(2,3)

Makro
źródło
1
Do poniższych uwag Erika i Macro nie sądzę, żeby ktokolwiek mi to przedstawił i prawdopodobnie lepiej jest mieć jedną połączoną odpowiedź zamiast trzech osobnych, ale dlaczego tak ważne jest to, że tyle dyskusji koncentruje się wokół tego, jak ty pisz rzeczy i gdzie je piszesz, zamiast przejmować się tym, co zostało powiedziane?
Michael Chernick
8
@MichaelChernick, nie sądzę, że jest „tyle” dyskusji na temat tego, jak się pisze. Wytyczne, w których próbowaliśmy ci pomóc, są bardziej zbliżone do „gdyby wszyscy to zrobili, ta strona byłaby bardzo niezorganizowana i trudna do przestrzegania”. Może się wydawać, że wiele się na ten temat dyskutuje, ale to prawdopodobnie dlatego, że byłeś bardzo aktywnym uczestnikiem, odkąd dołączyłeś, co jest świetne, ponieważ wyraźnie wnosisz wiele do stołu. Jeśli chcesz o tym więcej porozmawiać, rozważ rozpoczęcie wątku na temat meta zamiast dyskusji na komentarzach pod moją niepowiązaną odpowiedzią :)
Macro
co się stanie, jeśli jeden z użytkowników popiera jednolitą dystrybucję w twoim przykładzie?
Qbik
Ponieważ zdobyłem doświadczenie na tej stronie, muszę zgodzić się z Macro, że ważne jest, aby być zwięzłym i skonsolidowanym.
Michael
15

R2R2R2

R¯2=1(1R2)n1np1np

jedfrancis
źródło
21
R2)
6
  1. R2)r=x2)[0,1]R2)[0,1]R2

  2. R2Y=x+ϵR2R2

  3. R2R2)

Michael Chernick
źródło