Przeglądałem notatki z wykładu Cosmy Shalizi (w szczególności rozdział 2.1.1 drugiego wykładu ) i przypomniano mi, że możesz uzyskać bardzo niskie nawet jeśli masz całkowicie liniowy model.
Parafrazując przykład Shaliziego: załóżmy, że masz model , gdzie znany jest . Następnie \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon], a wyjaśniona wariancja to ^ 2 \ Var [X] , więc R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Odnosi się to do 0 jako \ Var [X] \ rightarrow 0 i do 1 jako \ Var [X] \ rightarrow \ infty .a
I odwrotnie, możesz uzyskać wysokie nawet jeśli twój model jest zauważalnie nieliniowy. (Czy ktoś ma dobry przykład?)
Kiedy więc jest użyteczną statystyką i kiedy należy ją zignorować?
źródło
Odpowiedzi:
Aby odpowiedzieć na pierwsze pytanie , rozważ model
z iid o wartości średniej zero i skończonej wariancji. Gdy zakres (uważany za stały lub losowy) wzrasta, idzie do 1. Niemniej jednak, jeśli wariancja jest niewielka (około 1 lub mniej), dane są „zauważalnie nieliniowe”. Na wykresach .ε X R2 ε var(ε)=1
Nawiasem mówiąc, łatwym sposobem na uzyskanie małego jest podzielenie zmiennych niezależnych na wąskie zakresy. Regresja (przy użyciu dokładnie tego samego modelu ) w każdym zakresie będzie miała niski nawet jeśli pełna regresja oparta na wszystkich danych ma wysoką . Rozważenie tej sytuacji jest pouczającym ćwiczeniem i dobrym przygotowaniem do drugiego pytania.R 2 R 2R2 R2 R2
Oba poniższe wykresy wykorzystują te same dane. do pełnego regresji 0.86. na plasterki (o szerokości od 1/2 -5/2 do 5/2) to 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, .01 , .00, czytanie od lewej do prawej. Jeśli już, pasowania stają się lepsze w krojonej sytuacji, ponieważ 10 oddzielnych linii może ściślej dopasować się do danych w swoich wąskich zakresach. Mimo, że dla plastrów są znacznie poniżej pełnej , ani wytrzymałości związku, w liniowości , ani rzeczywiście jakiegokolwiek aspektu dane (poza zakres stosowany do regresji) uległ zmianie.R2 R2 R2 R2 X
(Można by się sprzeciwić, że ta procedura krojenia zmienia rozkład To prawda, ale mimo to odpowiada najczęstszemu użyciu w modelowaniu efektów stałych i ujawnia stopień, w jakim mówi nam o wariancja w sytuacji efektów losowych. W szczególności, gdy jest zmuszony zmieniać się w mniejszym przedziale swojego naturalnego zakresu, zwykle spada.)X R2 R2 X X R2
Podstawowy problem z polega na tym, że zależy on od zbyt wielu rzeczy (nawet po skorygowaniu w regresji wielokrotnej), ale przede wszystkim od wariancji zmiennych niezależnych i wariancji reszt. Zwykle nie mówi nam nic o „liniowości”, „sile relacji” ani nawet „dobroci dopasowania” do porównywania sekwencji modeli.R2
Przez większość czasu można znaleźć lepszą statystykę niż . Aby wybrać model, możesz zajrzeć do AIC i BIC; aby wyrazić adekwatność modelu, spójrz na wariancję reszt.R2
To prowadzi nas wreszcie do drugiego pytania . Jedną z sytuacji, w których może mieć pewne zastosowanie, jest to, gdy zmienne niezależne są ustawione na wartości standardowe, zasadniczo kontrolując wpływ ich wariancji. Zatem jest tak naprawdę zastępstwem dla wariantu reszt, odpowiednio znormalizowanego.R2 1−R2
źródło
Twój przykład ma zastosowanie tylko wtedy, gdy zmienna powinna znajdować się w modelu . Z pewnością nie ma zastosowania, gdy używa się zwykłych oszacowań metodą najmniejszych kwadratów. Aby to zobaczyć, trzeba pamiętać, że jeśli szacujemy przez najmniejszych kwadratów w przykładzie, otrzymujemy:aX a
s 2 X =1
Teraz drugi człon jest zawsze mniejszy niż (równy w limicie), więc otrzymujemy górną granicę dla wkładu do ze zmiennej :1 R 2 X1 1 R2 X
I tak, chyba że również, zobaczymy jako (ponieważ licznik idzie do zera, ale mianownik przechodzi do ). Dodatkowo możemy uzyskać zbieżność do czegoś pomiędzy a zależności od tego, jak szybko te dwa warunki się rozchodzą. Teraz powyższy termin na ogół różni się szybciej niż jeśli powinien być w modelu, i wolniej, jeśli nie powinien być w modelu. W obu przypadkach idzie we właściwych kierunkach.(1N∑Ni=1XiYi)2→∞ R2→0 s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
Zauważ też, że dla dowolnego skończonego zestawu danych (tj. Rzeczywistego) nigdy nie możemy mieć chyba że wszystkie błędy są dokładnie zerowe. Zasadniczo oznacza to, że jest miarą względną, a nie bezwzględną. Ponieważ chyba, że jest faktycznie równe , zawsze możemy znaleźć model lepiej dopasowany. Jest to prawdopodobnie „niebezpieczny” aspekt , ponieważ ponieważ jest skalowany w zakresie od do , wydaje się, że możemy interpolować go w absolutnym sensie.R2=1 R2 R2 1 R2 0 1
Prawdopodobnie bardziej przydatne jest sprawdzenie, jak szybko spada podczas dodawania zmiennych do modelu. I wreszcie, nigdy nie należy go ignorować przy selekcji zmiennych, ponieważ jest faktycznie wystarczającą statystyką do selekcji zmiennych - zawiera wszystkie informacje o selekcji zmiennych zawarte w danych. Jedyne, co jest potrzebne, to wybrać spadek w który odpowiada „dopasowaniu błędów” - który zwykle zależy od wielkości próby i liczby zmiennych.R2 R2 R2
źródło
Jeśli mogę dodać przykład, kiedy jest niebezpieczny. Wiele lat temu pracowałem nad niektórymi danymi biometrycznymi i będąc młodym i głupim byłem zachwycony, gdy znalazłem pewne statystycznie znaczące wartości dla moich fantazyjnych regresji, które skonstruowałem za pomocą funkcji krokowych. Dopiero później, patrząc wstecz po mojej prezentacji dla dużej międzynarodowej publiczności, zdałem sobie sprawę, że biorąc pod uwagę ogromną różnorodność danych - w połączeniu z możliwą słabą reprezentacją próby w odniesieniu do populacji, 0,02 było całkowicie bez znaczenia nawet jeśli było to „istotne statystycznie” ...R2 R2 R2
Osoby pracujące ze statystykami muszą zrozumieć dane!
źródło
Gdy mają jeden przewidywań jest dokładnie interpretować jako stosunek różnicy w zakresie , które mogą być wyjaśnione przez liniowym związku z . Tę interpretację należy wziąć pod uwagę, patrząc na wartość . Y X R 2R2 Y X R2
Możesz uzyskać duży z relacji nieliniowej tylko wtedy, gdy związek jest zbliżony do liniowego. Załóżmy na przykład: gdzie i . Jeśli wykonasz obliczenia Y = e X + ε X ∼ U n i f o r m ( 2 , 3 ) ε ∼ N ( 0 , 1 )R2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
okaże się, że jest to około (przybliżiłem to tylko przez symulację), mimo że związek wyraźnie nie jest liniowy. Powodem jest to, że wygląda okropnie podobnie jak funkcja liniowa w przedziale .e X ( 2 , 3 ).914 eX (2,3)
źródło
źródło
źródło