Najwyraźniej współczynnik korelacji Pearsona jest parametryczny, a współczynnik rho Spearmana nieparametryczny.
Mam problem ze zrozumieniem tego. Jak rozumiem, Pearson jest obliczany jako a Spearman jest obliczany w ten sam sposób, z tym wyjątkiem, że zastępujemy wszystkie wartości ich szeregami.
Wikipedia mówi
Różnica między modelem parametrycznym a modelem nieparametrycznym polega na tym, że pierwszy ma stałą liczbę parametrów, a drugi zwiększa liczbę parametrów wraz z ilością danych treningowych.
Ale nie widzę żadnych parametrów oprócz samych próbek. Niektórzy twierdzą, że testy parametryczne zakładają normalne rozkłady i dalej twierdzą, że Pearson zakłada normalne rozproszone dane, ale nie rozumiem, dlaczego Pearson tego wymagał.
Moje pytanie brzmi zatem, co oznaczają parametryczne i nieparametryczne w kontekście statystyki? Jak pasują tam Pearson i Spearman?
źródło
Odpowiedzi:
Problem polega na tym, że „nieparametryczny” naprawdę ma obecnie dwa różne znaczenia. Definicja w Wikipedii dotyczy takich rzeczy, jak dopasowanie krzywej nieparametrycznej, np. Przez splajny lub regresję lokalną. Drugie znaczenie, które jest starsze, jest bardziej podobne do „bez dystrybucji” - to znaczy technik, które można zastosować bez względu na założony rozkład danych. To drugie dotyczy rho Spearmana, ponieważ transformacja rang implikuje, że da ten sam wynik bez względu na to, jaki był twój pierwotny rozkład.
źródło
Myślę, że jedynym powodem, dla którego współczynnik korelacji Pearsona nazwano parametrycznym, jest to, że można go użyć do oszacowania parametrów wielowymiarowego rozkładu normalnego. na przykład dwuwymiarowy rozkład normalny ma 5 parametrów: dwa średnie, dwie wariancje i współczynnik korelacji. To ostatnie można oszacować za pomocą współczynnika korelacji Pearsona.
źródło
Myślę, że najprostsza odpowiedź jest taka, że test rho Spearmana wykorzystuje dane porządkowe (liczby, które można uszeregować, ale nie mówią nic o odstępie między liczbami, np. 3 smaki lodów są ustawione na 1, 2 i 3, ale to tylko mówi, które smak był preferowany, nie o ile). Dane porządkowe nie mogą być wykorzystywane w testach parametrycznych.
Test r Pearsona wykorzystuje dane przedziału lub współczynnika (liczby, które mają ustalone przedziały, np. Sekundy, kg, mm). 1 mm jest nie tylko mniejszy niż 5 mm, ale wiesz dokładnie, o ile. ten typ danych można wykorzystać w teście parametrycznym.
źródło