Różnica między założeniami leżącymi u podstaw korelacji a regresywnymi testami nachylenia istotności

21

Moje pytanie wyrosło z dyskusji z @whuber w komentarzach do innego pytania .

W szczególności komentarz @whuber był następujący:

Jednym z powodów, dla których może cię zaskoczyć, jest to, że założenia leżące u podstaw testu korelacji i testu nachylenia regresji są różne - więc nawet jeśli rozumiemy, że korelacja i nachylenie naprawdę mierzą to samo, dlaczego ich wartości p powinny być takie same? To pokazuje, jak te kwestie głębiej niż po prostu czy i powinna być same.βrβ

To mnie zastanowiło i znalazłem wiele interesujących odpowiedzi. Na przykład znalazłem to pytanie „ Założenia współczynnika korelacji ”, ale nie widzę, jak to wyjaśniłoby powyższy komentarz.

Znalazłam bardziej interesujących odpowiedzi na temat relacji Pearsona oraz nachylenie w prostej regresji liniowej (patrz tutaj i tutaj, na przykład), ale żaden z nich nie wydaje się, aby odpowiedzieć co @whuber odnosił się w swoim komentarzu (przynajmniej nie wynika Dla mnie).βrβ

Pytanie 1: Jakie są założenia testu korelacji i testu nachylenia regresji?

W przypadku mojego drugiego pytania rozważ następujące wyniki R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

I wynik cor.test()funkcji:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Jak widać na podstawie lm()i cov.test(), współczynnik korelacji Pearsona oraz oszacowanie nachylenia ( ) są zasadniczo różne, odpowiednio 0,96 vs. 0,485, ale wartość t i wartości p są takie same.β 1rβ1

Następnie próbowałem również sprawdzić, czy jestem w stanie obliczyć wartość t dla i , które są takie same, pomimo że i są różne. I właśnie tam utknąłem, przynajmniej dla :β 1 r β 1 rrβ1rβ1r

Oblicz nachylenie ( ) w prostej regresji liniowej, używając sumy kwadratów i : x yβ1xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Oblicz oszacowanie najmniejszych kwadratów nachylenia regresji, (jest na to dowód w książce Crawley R Book 1. wydanie , strona 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Oblicz błąd standardowy dla :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

A wartość ti wartość p dla :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

W tym momencie nie wiem, a jest to Pytanie 2 , jak obliczyć tę samą wartość t za pomocą zamiast (być może krok po kroku)?β 1rβ1

Zakładam, że skoro cor.test()alternatywną hipotezą jest to, czy prawdziwa korelacja nie jest równa 0 (patrz cor.test()dane wyjściowe powyżej), oczekiwałbym czegoś w rodzaju współczynnika korelacji Pearsona podzielonego przez „błąd standardowy współczynnika korelacji Pearsona” (podobny do powyżej)?! Ale jaki byłby ten standardowy błąd i dlaczego?rb1/se.b1

Może ma to coś wspólnego z wyżej wymienionymi założeniami leżącymi u podstaw testu korelacji i testu nachylenia regresji ?!

EDYCJA (27 lipca 2017 r.): Chociaż @whuber dostarczył bardzo szczegółowe wyjaśnienie pytania 1 (i częściowo pytania 2 , zobacz komentarze pod jego odpowiedzią), to jednak trochę kopałem i odkryłem, że te dwa posty ( tutaj i tutaj ) pokazać konkretny błąd standardowy dla , który działa dobrze, aby odpowiedzieć na pytanie 2 , czyli odtworzyć daną wartość t- :rrr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Stefan
źródło
2
Jest to ten sam test lub co najmniej równoważny test. Jeśli odrzucisz hipotezę, że korelacja nie jest równa zero, test również odrzuci hipotezę, że nachylenie nie jest zerowe.
Michael R. Chernick,
6
@ Michael Right - ale istnieje wiele potencjalnych modeli, które są uderzająco różne. Jednym z nich jest standardowy model korelacji, z czego najprostszy jest to, że dane są próbką z nieznanego dwuwymiarowego rozkładu normalnego. Inną wersją jest model OLS do regresji względem X - w dwóch smakach, stałych regresorach i losowych regresorach. Innym odwrócenie ról X i Y . Jeśli masz wrażenie, że powinny one wytwarzać te same wartości p dla porównywalnych testów hipotez, prawdopodobnie jest to tylko dzięki szerokiej znajomości, ale nie jest to intuicyjnie oczywiste! YXXY
whuber
1
@ whuber Widząc, że to Q jest tak dobrze ocenione, ale nie ma zadowalającej odpowiedzi, zacząłem nagrodę, która zakończyła się dzisiaj; jest teraz w okresie karencji. Opublikowano jedną nową odpowiedź, która dobrze wyjaśnia obliczenia korelacji jako nachylenia, ale twierdzi, że nie ma różnicy w założeniach, w przeciwieństwie do cytowanego oświadczenia. Moja nagroda zostanie automatycznie przyznana za tę nową odpowiedź, chyba że pojawi się inna. Powiadomię Cię, na wypadek gdybyś rozważył opublikowanie własnej odpowiedzi.
ameba mówi Przywróć Monikę
1
@amoeba Dziękujemy; Nie zauważyłem nagrody. Częściowo opisałem to, co miałem na myśli, kiedy napisałem uwagę, która wywołała to pytanie. Mam nadzieję, że stanowi to pewien postęp w kierunku, który zasugerowałeś.
whuber

Odpowiedzi:

5

Wprowadzenie

Ta odpowiedź dotyczy motywacji leżącej u podstaw tego zestawu pytań:

Jakie założenia leżą u podstaw testu korelacji i testu nachylenia regresji?

W świetle kontekstu przedstawionego w pytaniu chciałbym jednak trochę rozszerzyć to pytanie: zbadajmy różne cele i koncepcje korelacji i regresji.

Korelacja jest zwykle wywoływana w sytuacjach, w których

  • Dane są dwuwymiarowe: dokładnie dwie odrębne wartości zainteresowania są powiązane z każdym „podmiotem” lub „obserwacją”.

  • Dane są obserwacyjne: żadna z wartości nie została ustalona przez eksperymentatora. Oba zaobserwowano lub zmierzono.

  • Interesuje się identyfikacją, kwantyfikacją i testowaniem pewnego rodzaju zależności między zmiennymi.

Regresja jest używana gdzie

  • Dane są dwuwymiarowe lub wielowymiarowe: mogą istnieć więcej niż dwie odrębne wartości zainteresowania.

  • Zainteresowanie koncentruje się na zrozumieniu, co można powiedzieć o podzbiorze zmiennych - zmiennych „zależnych” lub „odpowiedziach” - w oparciu o to, co można wiedzieć o drugim podzbiorze - zmiennych „niezależnych” lub „regresorach”.

  • Określone wartości regresorów mogły zostać ustawione przez eksperymentatora.

Te różne cele i sytuacje prowadzą do różnych podejść. Ponieważ ten wątek dotyczy ich podobieństw, skupmy się na przypadku, w którym są najbardziej podobne: dane dwuwymiarowe. W obu przypadkach dane te będą zwykle modelowane jako realizacje zmiennej losowej . Bardzo ogólnie obie formy analizy poszukują stosunkowo prostych charakterystyk tej zmiennej.(X,Y)

Korelacja

Uważam, że „analiza korelacji” nigdy nie została ogólnie zdefiniowana. Czy powinno się to ograniczać do obliczania współczynników korelacji, czy też może być rozważane bardziej szczegółowo, ponieważ obejmuje PCA, analizę skupień i inne formy analizy, które dotyczą dwóch zmiennych? Niezależnie od tego, czy Twój punkt widzenia jest wąsko ograniczony, czy szeroki, być może zgodziłbyś się na zastosowanie następującego opisu:

Korelacja to analiza, która przyjmuje założenia dotyczące rozkładu , bez uprzywilejowania żadnej ze zmiennych, i wykorzystuje dane do wyciągnięcia bardziej szczegółowych wniosków na temat tego rozkładu.(X,Y)

Na przykład możesz zacząć od założenia, że ma dwuwymiarowy rozkład normalny i użyj współczynnika korelacji Pearsona dla danych, aby oszacować jeden z parametrów tego rozkładu. Jest to jedna z najwęższych (i najstarszych) koncepcji korelacji.(X,Y)

Jako inny przykład możesz założyć , że możesz mieć dowolny rozkład i użyć analizy skupień do identyfikacji k „centrów”. Można interpretować to jako początek rozdzielczości rozkładu ( X , Y ) na mieszaninę jednomodalnych rozkładów dwuwymiarowych, po jednym dla każdego skupienia.(X,Y)k(X,Y)

Jedną wspólną cechą wszystkich tych podejść jest symetryczne traktowanie i Y : żadna z nich nie jest uprzywilejowana w stosunku do drugiej. Obie odgrywają równoważne role.XY

Regresja

Regresja ma jasną, powszechnie rozumianą definicję:

Regresja charakteryzuje rozkład warunkowy (odpowiedź) dla X (regresor).YX

Historycznie, regresja swoje korzenie Discovery Galtona (C 1885). W normalnych danych, że dwuwymiarowe cieszą się liniową regresję: warunkowego oczekiwanie Y jest liniową funkcją X . W jednym biegunem widma specjalne ogóle jest zwykłe najmniejszych kwadratów (OLS) regresji gdzie rozkład warunkowego Y zakłada się normalne ( β 0 + P 1 X , Ď 2 ) na stałe parametry β 0 , β 1 , a σ(X,Y)YXY(β0+β1X,σ2)β0,β1,σ do oszacowania na podstawie danych.

Na skrajnie ogólnym końcu tego spektrum znajdują się uogólnione modele liniowe, uogólnione modele addytywne i inne podobne, które rozluźniają wszystkie aspekty OLS: można oczekiwać, że różnice, a nawet kształt rozkładu warunkowego będą się zmieniać nieliniowo z X . Pojęcie to przetrwa wszystko to uogólnienie jest to, że szczątki procentowe koncentruje się na zrozumieniu, jak Y zależy X . Ta fundamentalna asymetria wciąż istnieje.YXYX

Korelacja i regresja

Jedna bardzo szczególna sytuacja jest wspólna dla obu podejść i jest często spotykana: dwuwymiarowy model normalny. W tym modelu wykres rozrzutu danych przyjmie klasyczny kształt „piłki nożnej”, owalny lub cygarowy: dane są rozmieszczone eliptycznie wokół ortogonalnej pary osi.

  • Analiza korelacji koncentruje się na „sile” tego związku, w tym sensie, że stosunkowo niewielki rozrzut wokół głównej osi jest „silny”.

  • Jak wspomniano powyżej, regresja na X (i regresja X na Y ) jest liniowa : warunkowe oczekiwanie odpowiedzi jest funkcją liniową regresora.YXXY

(Warto zastanowić się nad wyraźnymi różnicami geometrycznymi między tymi dwoma opisami: pokazują one podstawowe różnice statystyczne).

Z pięciu dwuwymiarowych parametrów normalnych (dwóch średnich, dwóch spreadów i jednego, który mierzy zależność między dwiema zmiennymi), jeden jest przedmiotem wspólnego zainteresowania: piąty parametr, . Jest to bezpośrednio (i po prostu) związane zρ

  1. Współczynnik w regresji Y w X .XYX

  2. Współczynnik w regresji X w Y .YXY

  3. Warunkowe wariancje w jednej z regresji i ( 2 ) .(1)(2)

  4. Rozpiętości wokół osi elipsy (mierzone jako wariancje).(X,Y)

Analiza skupia się na związek , bez odróżniania role X i Y .(4)XY

Analiza regresji koncentruje się na wersjach od do ( 3 ) odpowiednich do wyboru zmiennych regresora i odpowiedzi.(1)(3)

W obu przypadkach, hipoteza posiada szczególną rolę: oznacza brak korelacji, a także ma zmienność Y względem X . Ponieważ (w tej najprostszej sytuacji) zarówno model prawdopodobieństwa i hipoteza zerowa są wspólne dla korelacji i regresji, nie powinno być zaskoczeniem, że obie metody mają wspólny interes w tych samych statystyk (czy nazywa się „ R ” lub „ β ”); że zerowe rozkłady próbkowania tych statystyk są takie same; i (dlatego), że testy hipotez mogą dawać identyczne wartości p.H0:ρ=0YXrβ^

Ta powszechna aplikacja, która jest pierwszą, której ktoś się uczy, może utrudnić rozpoznanie różnic między korelacją i regresją w ich koncepcjach i celach. Dopiero gdy dowiadujemy się o ich uogólnieniu, ujawniają się podstawowe różnice. Trudno byłoby interpretować GAM jako dającą wiele informacji na temat „korelacji”, podobnie jak trudno byłoby sformułować analizę skupień jako formę „regresji”. Obie są różnymi rodzinami procedur o różnych celach, z których każda jest przydatna sama w sobie, gdy jest odpowiednio stosowana.


Mam nadzieję, że to raczej ogólny i niejasny przegląd oświetlony niektóre ze sposobów, w którym „te kwestie głębiej niż po prostu czy i β powinny być same.” Uznanie tych różnic pomogło mi zrozumieć, jakie różne techniki starają się osiągnąć, a także lepiej je wykorzystać w rozwiązywaniu problemów statystycznych.rβ^

Whuber
źródło
Dziękuję fanom za tę wnikliwą odpowiedź! Jak wspomniano w komentarzach do odpowiedzi @ matt-barstead, natknąłem się na standardowy błąd dla mojego drugiego pytania. Nie do końca rozumiem jednak, w jaki sposób jest uzyskiwany i dlaczego (podobnie do pytania tutaj )r
Stefan
1
SE dla można wyprowadzić tylko przez przyjęcie określonych założeń dystrybucyjnych, takich jak, że ( X , Y ) jest dwuwymiarową normalną. W tym momencie jest to ćwiczenie na rachunku całkowym - który dla tego pytania nie jest pouczający. Rozkład r jest cytowany przez Wikipedię i pochodzi (geometrycznie) w moim poście na stronie stats.stackexchange.com/a/85977/919 . r(X,Y)r
whuber
Opuszczę tę puszkę robaków jeszcze przez jakiś czas :) Dzięki za komentarz @whuber!
Stefan
3

Jak sugeruje odpowiedź @ whubera, istnieje szereg modeli i technik, które mogą podlegać parasolowi korelacji, które nie mają wyraźnych analogów w świecie regresji i odwrotnie. Jednak ogólnie rzecz biorąc, kiedy ludzie myślą, porównują i regresję kontrastu i korelację, w rzeczywistości biorą pod uwagę dwie strony tej samej monety matematycznej (zazwyczaj regresję liniową i korelację Pearsona). To, czy powinni oni spojrzeć szerzej na obie rodziny analiz, jest czymś w rodzaju odrębnej debaty, z którą badacze powinni się zmagać przynajmniej minimalnie.

xy(x,y)

W tym wąskim spojrzeniu zarówno na regresję, jak i korelację, poniższe wyjaśnienia powinny pomóc wyjaśnić, w jaki sposób i dlaczego ich szacunki, błędy standardowe i wartości p są zasadniczo wariantami siebie nawzajem.

Z dataframe datstanowiącego longleyzbiór danych odwołuje powyżej otrzymujemy następujące dla cor.test. (Nie ma tu nic nowego, chyba że pominąłeś powyższe pytanie i od razu przejrzałeś odpowiedzi):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

I następujące dla modelu liniowego (również taki sam jak powyżej):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Teraz nowy komponent do tej odpowiedzi. Najpierw utwórz dwie nowe znormalizowane wersje zmiennych Employedi Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Drugi ponownie uruchom regresję:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! Nachylenie regresji jest równe współczynnikowi korelacji z góry. Odpowiedź na pytanie 1 brzmi zatem, że założenia dla obu testów są zasadniczo takie same:

  1. Niezależność obserwacji
  2. xy
  3. eN(0,σe2)
  4. Terminy błędów są podobnie rozkładane przy każdej przewidywanej wartości linii regresji (tj. Jednorodność wariancji błędu)

xy

W przypadku pytania 2 zacznijmy od standardowego błędu wzoru nachylenia regresji zastosowanego powyżej (implikowanego w kodzie R - ale podanego wprost poniżej):

b=(XiX¯)(YiY¯)(XiX¯)2

bVar(b)Xi=(XiX¯)Yi=(YiY¯)

Var(b)=Var((XiYi)(Xi2))

Z tej formuły można przejść do następującego, skróconego i bardziej użytecznego wyrażenia ( zobacz ten link krok po kroku ):

SE(b)=

Var(b)=σe2(XiX¯)2
SE(b)=Var(b)=σe2(XiX¯)2

gdzie reprezentuje wariancję reszt.σe2

Myślę, że przekonasz się, że jeśli rozwiążesz to równanie dla niestandardowych i znormalizowanych (tj. Korelacyjnych) modeli liniowych, otrzymasz takie same wartości p i t dla swoich nachyleń. Oba testy opierają się na zwykłym oszacowaniu metodą najmniejszych kwadratów i przyjmują te same założenia. W praktyce wielu badaczy pomija sprawdzanie założeń zarówno dla prostych modeli regresji liniowej, jak i korelacji, chociaż myślę, że jest to jeszcze bardziej powszechne w przypadku korelacji, ponieważ wiele osób nie rozpoznaje ich jako specjalnych przypadków prostych regresji liniowych. (Uwaga: nie jest to dobra praktyka do przyjęcia)

Matt Barstead
źródło
2
Ta odpowiedź nie odnosi się do cytatu z @whuber przytoczonego w pytaniu, w którym twierdzi on, że założenia są różne. Czy chcesz powiedzieć, że to stwierdzenie było błędne?
ameba mówi Przywróć Monikę
Jeśli zastosujesz się do tych równań, korelacja Pearsona ma te same podstawowe założenia prostej regresji liniowej. Mogę zmienić swoją odpowiedź, aby jaśniej to stwierdzić.
Matt Barstead,
1
Dziękuję za odpowiedź! Byłem świadomy, że współczynnik korelacji jest równy nachyleniu regresji po standaryzacji. Zostało to pokazane w linku 3 i 4 w moim pytaniu. Byłem również świadomy ogólnych założeń, które wymieniłeś i dlatego komentarz @whuber skłonił mnie do myślenia, stąd doprowadzenie do tego pytania. Powinienem był wyraźnie powiedzieć, które założenia jestem świadomy - przepraszam.
Stefan
1
I faktycznie pewne dalsze kopanie i okazało się, że te dwa stanowiska ( tutaj i tutaj ) wykazują specyficzną błąd standardowy dla , który działa dobrze, aby odpowiedzieć na moje drugie pytanie, które jest wierne odtworzenie wartości podanej T- : . rrrr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Stefan
0

Odnośnie do pytania 2

jak obliczyć tę samą wartość t za pomocą r zamiast β1

trFr

F=r2/k(1r2)/(nk)

k=2n=datapoints

Z ograniczeniem, że

... nie można użyć współczynnika F, gdy model nie ma przechwytywania

Źródło: Testowanie hipotez w modelu regresji wielokrotnej

Harry Salmon
źródło
1
Spojrzałem na oryginalny post, aby określić, na jakie pytanie możesz odpowiedzieć. Znalazłem dwa, ponumerowane 1 (o założeniach) i 2 (o obliczaniu wartości t), ale żadna z tych odpowiedzi nie wydaje się uwzględniona. Czy możesz nam powiedzieć bardziej szczegółowo, na jakie pytanie odpowiadasz?
whuber
1
r
1
Myślę, że rozumiem, być może odpowiadałem na pytanie w konkretnym przypadku, a nie w ogólnym. Myślę, że użyteczne byłoby sformułowanie pytania w kategoriach ogólnej zerowej i alternatywnej hipotezy, aby móc rozpatrzyć ten ogólny przypadek, gdy tak się staram.
Harry Salmon
Zgadzam się: wykazanie jasnych modeli i kryteriów decyzyjnych dla analiz korelacji i regresji byłoby bardzo pomocne w ich rozróżnieniu. Czasami dobra odpowiedź składa się jedynie z przeredagowania lub wyjaśnienia pytania, a często najlepsze odpowiedzi zaczynają się od skutecznego przekształcenia pytania, więc nie bój się iść w tym kierunku.
whuber