Dlaczego Pearson jest parametryczny, a Spearman nieparametryczny

19

Najwyraźniej współczynnik korelacji Pearsona jest parametryczny, a współczynnik rho Spearmana nieparametryczny.

Mam problem ze zrozumieniem tego. Jak rozumiem, Pearson jest obliczany jako a Spearman jest obliczany w ten sam sposób, z tym wyjątkiem, że zastępujemy wszystkie wartości ich szeregami.

rxy=doov(X,Y)σxσy

Wikipedia mówi

Różnica między modelem parametrycznym a modelem nieparametrycznym polega na tym, że pierwszy ma stałą liczbę parametrów, a drugi zwiększa liczbę parametrów wraz z ilością danych treningowych.

Ale nie widzę żadnych parametrów oprócz samych próbek. Niektórzy twierdzą, że testy parametryczne zakładają normalne rozkłady i dalej twierdzą, że Pearson zakłada normalne rozproszone dane, ale nie rozumiem, dlaczego Pearson tego wymagał.

Moje pytanie brzmi zatem, co oznaczają parametryczne i nieparametryczne w kontekście statystyki? Jak pasują tam Pearson i Spearman?

użytkownik2740
źródło
6
To dobre pytanie i jest tam bardzo dużo dezinformacji. Na przykład równanie testów parametrycznych i zakładanie normalnych rozkładów jest niestety częstym nieporozumieniem, w którym wielu autorów podręczników, nauczycieli kursów i plakatów internetowych po prostu kopiuje od innych, którzy są tak lub bardziej zdezorientowani.
Nick Cox,
5
Być może najprostszym pozytywnym rozwiązaniem tego pytania jest: tak, korelacja Spearmana jest parametrem, który ma być oszacowany, określając siłę związku, a więc przypomina Pearson (u podstaw, to ten sam pomysł, jak wskazałeś); ale nie, korelacja Spearmana nie jest parametrem występującym w rozkładzie, podczas gdy korelacja Pearsona jest parametrem w dwuwymiarowym rozkładzie normalnym (historyczna, ale obecnie niedoceniana interpretacja tego, co robisz, gdy korelujesz). Jest to dobre rozróżnienie, które należy rozumieć, widząc, że słowo „parametr” ma wiele zmysłów.
Nick Cox,
@NickCox, dlaczego nie opublikujesz tego jako odpowiedzi.
Richard Hardy,
5
Problem normalności rozkładu naprawdę gryzie tylko wtedy, gdy chcesz wykonać testy istotności z korelacją. Jeśli używasz korelacji wyłącznie jako miar opisowych, nienormalność nie musi stanowić bariery w stosowaniu korelacji. Korelacje mogą być nawet trochę przydatne w przypadku dwóch zmiennych binarnych, o ile obie się różnią. Nadal musisz uważać na efekty wartości odstających itp. Itp.
Nick Cox,
1
Ponieważ wydaje się, że nie zostało to jeszcze wyraźnie powiedziane, chciałbym podkreślić, że żadna statystyka nie jest „parametryczna”. To tak, jakby powiedzieć, że liczby są smaczne: przymiotnik po prostu nie odnosi się do rzeczownika. Modele statystyczne mogą być parametryczne (jak wskazano w cytacie z Wikipedii), a także oparte na nich testy i procedury. Statystyki Spearmana i Pearsona mogą być używane zarówno w ustawieniach parametrycznych, jak i nieparametrycznych. Więcej na ten temat na stronie stats.stackexchange.com/questions/67204 . Tym, co sprawia, że ​​model jest parametryczny, jest jego przestrzeń stanu .
whuber

Odpowiedzi:

17

Problem polega na tym, że „nieparametryczny” naprawdę ma obecnie dwa różne znaczenia. Definicja w Wikipedii dotyczy takich rzeczy, jak dopasowanie krzywej nieparametrycznej, np. Przez splajny lub regresję lokalną. Drugie znaczenie, które jest starsze, jest bardziej podobne do „bez dystrybucji” - to znaczy technik, które można zastosować bez względu na założony rozkład danych. To drugie dotyczy rho Spearmana, ponieważ transformacja rang implikuje, że da ten sam wynik bez względu na to, jaki był twój pierwotny rozkład.

Hong Ooi
źródło
2
Nieparametryczne ma dwa znaczenia, ale komentarz w Wikipedii naprawdę dotyczy obu. W regresji nieparametrycznej odnosi się do związku, który nie jest skończony parametryczny. Po stronie „bez dystrybucji” odnosi się do modeli dystrybucyjnych, które nie są skończone parametryczne.
Glen_b
1
Hm, to cytat z Wikipedii to nie ja. Ktoś inny to dodał.
Hong Ooi,
2
Główna edycja - która, moim zdaniem, jest niepoprawna w jednym szczególe i nie dodaje niczego szczególnie przydatnego - pojawiła się w recenzji, ponieważ została wykonana przez użytkownika o niskiej liczbie powtórzeń i została odrzucona przez jedną osobę, ale została automatycznie zaakceptowana, gdy trzecia osoba próbowała edytować, aby go poprawić (być może nie zdawały sobie sprawy, że będzie to konsekwencją). Przywrócę tę edycję z powrotem do twojego oryginału. Możesz to zrobić za każdym razem, gdy pojawi się edycja, której nie lubisz.
Glen_b
Teraz wycofałem się do twojego oryginalnego postu, ponieważ myślę, że zbytnio zmienił on twój post bez szukania zgody i nie brzmi, jakbyś się z nim zgadzał. Jeśli coś Ci się podobało, kliknij link „edytowałem… temu” nad moim imieniem i skopiuj części, które lubisz z tego, co było wcześniej, a następnie edytuj i wklej.
Glen_b
Kiedy uzasadnione jest używanie Spearmana? Jak Pearson może pomóc, gdy korzystasz ze Spearmana?
Léo Léopold Hertz -
3

Myślę, że jedynym powodem, dla którego współczynnik korelacji Pearsona nazwano parametrycznym, jest to, że można go użyć do oszacowania parametrów wielowymiarowego rozkładu normalnego. na przykład dwuwymiarowy rozkład normalny ma 5 parametrów: dwa średnie, dwie wariancje i współczynnik korelacji. To ostatnie można oszacować za pomocą współczynnika korelacji Pearsona.

ρ

Aksakal
źródło
nie jest parametrem współczynnika korelacji Pearsona w tym sensie, że trzeba założyć normalność, aby sprawdzić jego znaczenie? to znaczy, nie zakłada normalności jako statystyki, ale zakładasz, że dane są normalne podczas obliczania rozkładu współczynnika korelacji próbki i testowania go? to szczere pytanie, mogę się w 100% mylić.
mugen
Czy możesz wyjaśnić, czy przyjmujesz jakieś założenia dotyczące dystrybucji w sperman i kendall?
Léo Léopold Hertz -
@mugen nie musisz zakładać normalności, aby sprawdzić znaczenie korelacji Pearsona; robi to wspólny test korelacji Pearsona. Mógłbyś przyjąć inne parametryczne założenie i wymyślić inny test ... lub rzeczywiście, można wykonać test permutacji zera, że ​​korelacja populacji Pearsona wynosi zero, co daje test nieparametryczny.
Glen_b
0

Myślę, że najprostsza odpowiedź jest taka, że ​​test rho Spearmana wykorzystuje dane porządkowe (liczby, które można uszeregować, ale nie mówią nic o odstępie między liczbami, np. 3 smaki lodów są ustawione na 1, 2 i 3, ale to tylko mówi, które smak był preferowany, nie o ile). Dane porządkowe nie mogą być wykorzystywane w testach parametrycznych.

Test r Pearsona wykorzystuje dane przedziału lub współczynnika (liczby, które mają ustalone przedziały, np. Sekundy, kg, mm). 1 mm jest nie tylko mniejszy niż 5 mm, ale wiesz dokładnie, o ile. ten typ danych można wykorzystać w teście parametrycznym.

Julian Keenlyside
źródło
1
Z pewnością możliwe jest stosowanie modeli parametrycznych - a zatem testów parametrycznych - z danymi porządkowymi. Trzeba po prostu zaproponować rozkład dla tej zmiennej ze skończoną - i ustaloną - liczbą parametrów, i istnieje odpowiednia hipoteza w odniesieniu do tych parametrów i voila , istnieje test parametryczny. Korelacja Pearsona obliczona w sytuacjach, w których jedna lub obie zmienne mają dwie kategorie (oznaczone dwiema różnymi liczbami, zwykle 0/1), skutkuje powszechnie stosowanymi miarami asocjacji w tych sytuacjach.
Glen_b