Moje pytanie wyrosło z dyskusji z @whuber w komentarzach do innego pytania .
W szczególności komentarz @whuber był następujący:
Jednym z powodów, dla których może cię zaskoczyć, jest to, że założenia leżące u podstaw testu korelacji i testu nachylenia regresji są różne - więc nawet jeśli rozumiemy, że korelacja i nachylenie naprawdę mierzą to samo, dlaczego ich wartości p powinny być takie same? To pokazuje, jak te kwestie głębiej niż po prostu czy i powinna być same.β
To mnie zastanowiło i znalazłem wiele interesujących odpowiedzi. Na przykład znalazłem to pytanie „ Założenia współczynnika korelacji ”, ale nie widzę, jak to wyjaśniłoby powyższy komentarz.
Znalazłam bardziej interesujących odpowiedzi na temat relacji Pearsona oraz nachylenie w prostej regresji liniowej (patrz tutaj i tutaj, na przykład), ale żaden z nich nie wydaje się, aby odpowiedzieć co @whuber odnosił się w swoim komentarzu (przynajmniej nie wynika Dla mnie).β
Pytanie 1: Jakie są założenia testu korelacji i testu nachylenia regresji?
W przypadku mojego drugiego pytania rozważ następujące wyniki R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
I wynik cor.test()
funkcji:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Jak widać na podstawie lm()
i cov.test()
, współczynnik korelacji Pearsona oraz oszacowanie nachylenia ( ) są zasadniczo różne, odpowiednio 0,96 vs. 0,485, ale wartość t i wartości p są takie same.β 1
Następnie próbowałem również sprawdzić, czy jestem w stanie obliczyć wartość t dla i , które są takie same, pomimo że i są różne. I właśnie tam utknąłem, przynajmniej dla :β 1 r β 1 r
Oblicz nachylenie ( ) w prostej regresji liniowej, używając sumy kwadratów i : x y
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Oblicz oszacowanie najmniejszych kwadratów nachylenia regresji, (jest na to dowód w książce Crawley R Book 1. wydanie , strona 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Oblicz błąd standardowy dla :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
A wartość ti wartość p dla :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
W tym momencie nie wiem, a jest to Pytanie 2 , jak obliczyć tę samą wartość t za pomocą zamiast (być może krok po kroku)?β 1
Zakładam, że skoro cor.test()
alternatywną hipotezą jest to, czy prawdziwa korelacja nie jest równa 0 (patrz cor.test()
dane wyjściowe powyżej), oczekiwałbym czegoś w rodzaju współczynnika korelacji Pearsona podzielonego przez „błąd standardowy współczynnika korelacji Pearsona” (podobny do powyżej)?! Ale jaki byłby ten standardowy błąd i dlaczego?b1/se.b1
Może ma to coś wspólnego z wyżej wymienionymi założeniami leżącymi u podstaw testu korelacji i testu nachylenia regresji ?!
EDYCJA (27 lipca 2017 r.): Chociaż @whuber dostarczył bardzo szczegółowe wyjaśnienie pytania 1 (i częściowo pytania 2 , zobacz komentarze pod jego odpowiedzią), to jednak trochę kopałem i odkryłem, że te dwa posty ( tutaj i tutaj ) pokazać konkretny błąd standardowy dla , który działa dobrze, aby odpowiedzieć na pytanie 2 , czyli odtworzyć daną wartość t- :r
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Odpowiedzi:
Wprowadzenie
Ta odpowiedź dotyczy motywacji leżącej u podstaw tego zestawu pytań:
W świetle kontekstu przedstawionego w pytaniu chciałbym jednak trochę rozszerzyć to pytanie: zbadajmy różne cele i koncepcje korelacji i regresji.
Korelacja jest zwykle wywoływana w sytuacjach, w których
Dane są dwuwymiarowe: dokładnie dwie odrębne wartości zainteresowania są powiązane z każdym „podmiotem” lub „obserwacją”.
Dane są obserwacyjne: żadna z wartości nie została ustalona przez eksperymentatora. Oba zaobserwowano lub zmierzono.
Interesuje się identyfikacją, kwantyfikacją i testowaniem pewnego rodzaju zależności między zmiennymi.
Regresja jest używana gdzie
Dane są dwuwymiarowe lub wielowymiarowe: mogą istnieć więcej niż dwie odrębne wartości zainteresowania.
Zainteresowanie koncentruje się na zrozumieniu, co można powiedzieć o podzbiorze zmiennych - zmiennych „zależnych” lub „odpowiedziach” - w oparciu o to, co można wiedzieć o drugim podzbiorze - zmiennych „niezależnych” lub „regresorach”.
Określone wartości regresorów mogły zostać ustawione przez eksperymentatora.
Te różne cele i sytuacje prowadzą do różnych podejść. Ponieważ ten wątek dotyczy ich podobieństw, skupmy się na przypadku, w którym są najbardziej podobne: dane dwuwymiarowe. W obu przypadkach dane te będą zwykle modelowane jako realizacje zmiennej losowej . Bardzo ogólnie obie formy analizy poszukują stosunkowo prostych charakterystyk tej zmiennej.( X, Y)
Korelacja
Uważam, że „analiza korelacji” nigdy nie została ogólnie zdefiniowana. Czy powinno się to ograniczać do obliczania współczynników korelacji, czy też może być rozważane bardziej szczegółowo, ponieważ obejmuje PCA, analizę skupień i inne formy analizy, które dotyczą dwóch zmiennych? Niezależnie od tego, czy Twój punkt widzenia jest wąsko ograniczony, czy szeroki, być może zgodziłbyś się na zastosowanie następującego opisu:
Na przykład możesz zacząć od założenia, że ma dwuwymiarowy rozkład normalny i użyj współczynnika korelacji Pearsona dla danych, aby oszacować jeden z parametrów tego rozkładu. Jest to jedna z najwęższych (i najstarszych) koncepcji korelacji.( X, Y)
Jako inny przykład możesz założyć , że możesz mieć dowolny rozkład i użyć analizy skupień do identyfikacji k „centrów”. Można interpretować to jako początek rozdzielczości rozkładu ( X , Y ) na mieszaninę jednomodalnych rozkładów dwuwymiarowych, po jednym dla każdego skupienia.( X, Y) k ( X, Y)
Jedną wspólną cechą wszystkich tych podejść jest symetryczne traktowanie i Y : żadna z nich nie jest uprzywilejowana w stosunku do drugiej. Obie odgrywają równoważne role.X Y
Regresja
Regresja ma jasną, powszechnie rozumianą definicję:
Historycznie, regresja swoje korzenie Discovery Galtona (C 1885). W normalnych danych, że dwuwymiarowe cieszą się liniową regresję: warunkowego oczekiwanie Y jest liniową funkcją X . W jednym biegunem widma specjalne ogóle jest zwykłe najmniejszych kwadratów (OLS) regresji gdzie rozkład warunkowego Y zakłada się normalne ( β 0 + P 1 X , Ď 2 ) na stałe parametry β 0 , β 1 , a σ( X, Y) Y X Y ( β0+ β1X, σ2)) β0, β1, σ do oszacowania na podstawie danych.
Na skrajnie ogólnym końcu tego spektrum znajdują się uogólnione modele liniowe, uogólnione modele addytywne i inne podobne, które rozluźniają wszystkie aspekty OLS: można oczekiwać, że różnice, a nawet kształt rozkładu warunkowego będą się zmieniać nieliniowo z X . Pojęcie to przetrwa wszystko to uogólnienie jest to, że szczątki procentowe koncentruje się na zrozumieniu, jak Y zależy X . Ta fundamentalna asymetria wciąż istnieje.Y X Y X
Korelacja i regresja
Jedna bardzo szczególna sytuacja jest wspólna dla obu podejść i jest często spotykana: dwuwymiarowy model normalny. W tym modelu wykres rozrzutu danych przyjmie klasyczny kształt „piłki nożnej”, owalny lub cygarowy: dane są rozmieszczone eliptycznie wokół ortogonalnej pary osi.
Analiza korelacji koncentruje się na „sile” tego związku, w tym sensie, że stosunkowo niewielki rozrzut wokół głównej osi jest „silny”.
Jak wspomniano powyżej, regresja na X (i regresja X na Y ) jest liniowa : warunkowe oczekiwanie odpowiedzi jest funkcją liniową regresora.Y X X Y
(Warto zastanowić się nad wyraźnymi różnicami geometrycznymi między tymi dwoma opisami: pokazują one podstawowe różnice statystyczne).
Z pięciu dwuwymiarowych parametrów normalnych (dwóch średnich, dwóch spreadów i jednego, który mierzy zależność między dwiema zmiennymi), jeden jest przedmiotem wspólnego zainteresowania: piąty parametr, . Jest to bezpośrednio (i po prostu) związane zρ
Współczynnik w regresji Y w X .X Y X
Współczynnik w regresji X w Y .Y X Y
Warunkowe wariancje w jednej z regresji i ( 2 ) .( 1 ) ( 2 )
Rozpiętości wokół osi elipsy (mierzone jako wariancje).( X, Y)
Analiza skupia się na związek , bez odróżniania role X i Y .( 4 ) X Y
Analiza regresji koncentruje się na wersjach od do ( 3 ) odpowiednich do wyboru zmiennych regresora i odpowiedzi.( 1 ) ( 3 )
W obu przypadkach, hipoteza posiada szczególną rolę: oznacza brak korelacji, a także ma zmienność Y względem X . Ponieważ (w tej najprostszej sytuacji) zarówno model prawdopodobieństwa i hipoteza zerowa są wspólne dla korelacji i regresji, nie powinno być zaskoczeniem, że obie metody mają wspólny interes w tych samych statystyk (czy nazywa się „ R ” lub „ β ”); że zerowe rozkłady próbkowania tych statystyk są takie same; i (dlatego), że testy hipotez mogą dawać identyczne wartości p.H.0: ρ = 0 Y X r β^
Ta powszechna aplikacja, która jest pierwszą, której ktoś się uczy, może utrudnić rozpoznanie różnic między korelacją i regresją w ich koncepcjach i celach. Dopiero gdy dowiadujemy się o ich uogólnieniu, ujawniają się podstawowe różnice. Trudno byłoby interpretować GAM jako dającą wiele informacji na temat „korelacji”, podobnie jak trudno byłoby sformułować analizę skupień jako formę „regresji”. Obie są różnymi rodzinami procedur o różnych celach, z których każda jest przydatna sama w sobie, gdy jest odpowiednio stosowana.
Mam nadzieję, że to raczej ogólny i niejasny przegląd oświetlony niektóre ze sposobów, w którym „te kwestie głębiej niż po prostu czy i β powinny być same.” Uznanie tych różnic pomogło mi zrozumieć, jakie różne techniki starają się osiągnąć, a także lepiej je wykorzystać w rozwiązywaniu problemów statystycznych.r β^
źródło
Jak sugeruje odpowiedź @ whubera, istnieje szereg modeli i technik, które mogą podlegać parasolowi korelacji, które nie mają wyraźnych analogów w świecie regresji i odwrotnie. Jednak ogólnie rzecz biorąc, kiedy ludzie myślą, porównują i regresję kontrastu i korelację, w rzeczywistości biorą pod uwagę dwie strony tej samej monety matematycznej (zazwyczaj regresję liniową i korelację Pearsona). To, czy powinni oni spojrzeć szerzej na obie rodziny analiz, jest czymś w rodzaju odrębnej debaty, z którą badacze powinni się zmagać przynajmniej minimalnie.
W tym wąskim spojrzeniu zarówno na regresję, jak i korelację, poniższe wyjaśnienia powinny pomóc wyjaśnić, w jaki sposób i dlaczego ich szacunki, błędy standardowe i wartości p są zasadniczo wariantami siebie nawzajem.
Z dataframe
dat
stanowiącegolongley
zbiór danych odwołuje powyżej otrzymujemy następujące dla cor.test. (Nie ma tu nic nowego, chyba że pominąłeś powyższe pytanie i od razu przejrzałeś odpowiedzi):I następujące dla modelu liniowego (również taki sam jak powyżej):
Teraz nowy komponent do tej odpowiedzi. Najpierw utwórz dwie nowe znormalizowane wersje zmiennych
Employed
iPopulation
:Drugi ponownie uruchom regresję:
Voila! Nachylenie regresji jest równe współczynnikowi korelacji z góry. Odpowiedź na pytanie 1 brzmi zatem, że założenia dla obu testów są zasadniczo takie same:
W przypadku pytania 2 zacznijmy od standardowego błędu wzoru nachylenia regresji zastosowanego powyżej (implikowanego w kodzie R - ale podanego wprost poniżej):
Z tej formuły można przejść do następującego, skróconego i bardziej użytecznego wyrażenia ( zobacz ten link krok po kroku ):
SE(b)=√
gdzie reprezentuje wariancję reszt.σ2)mi
Myślę, że przekonasz się, że jeśli rozwiążesz to równanie dla niestandardowych i znormalizowanych (tj. Korelacyjnych) modeli liniowych, otrzymasz takie same wartości p i t dla swoich nachyleń. Oba testy opierają się na zwykłym oszacowaniu metodą najmniejszych kwadratów i przyjmują te same założenia. W praktyce wielu badaczy pomija sprawdzanie założeń zarówno dla prostych modeli regresji liniowej, jak i korelacji, chociaż myślę, że jest to jeszcze bardziej powszechne w przypadku korelacji, ponieważ wiele osób nie rozpoznaje ich jako specjalnych przypadków prostych regresji liniowych. (Uwaga: nie jest to dobra praktyka do przyjęcia)
źródło
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Oto wyjaśnienie równoważności testu, pokazujące również, w jaki sposób powiązane są rib.
http://www.real-statistics.com/regression/hypothesis-testing-signiance-regression-line-slope/
Aby wykonać OLS, musisz zrobić https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions
Dodatkowo OLS i corr wymagają założenia losowego próbkowania.
Konstrukcja testu corr zakłada:
Mamy „losową i wystarczająco dużą próbkę” z populacji (x, y).
źródło
Odnośnie do pytania 2
Z ograniczeniem, że
Źródło: Testowanie hipotez w modelu regresji wielokrotnej
źródło