Mam zestaw danych z zależną i niezależną zmienną. Oba nie są szeregami czasowymi. Mam 120 obserwacji. Współczynnik korelacji wynosi 0,43
Po tych obliczeniach dodałem kolumnę dla obu zmiennych ze średnią dla każdych 12 obserwacji, w wyniku czego otrzymałem 2 nowe kolumny ze 108 obserwacjami (parami). Współczynnik korelacji tych kolumn wynosi 0,77
Wygląda na to, że poprawiłem korelację w ten sposób. Czy to jest dozwolone? Czy zwiększyłem moc wyjaśniania zmiennej niezależnej za pomocą średnich?
regression
correlation
mean
predictor
cross-section
użytkownik2165379
źródło
źródło
Odpowiedzi:
Rzućmy okiem na dwa wektory, z których pierwszy jest
a drugi wektor jest
Obliczanie korelacji Pearsona, którą otrzymasz
Jeśli jednak weźmiesz średnią kolejnych par dla wartości, oba wektory są identyczne. Wektory identyczne mają korelację 1.
Ten prosty przykład ilustruje wadę twojej metody.
Edycja : aby wyjaśnić to bardziej ogólnie: Współczynnik korelacji oblicza się w następujący sposób.
Uśrednianie niektórych i niektórych zmienia różnice między i a także różnicę między i .X Y X μX Y μY
źródło
Uśrednianie może być atrakcyjne lub wygodne. Może być również źródłem oszustwa, w najgorszym przypadku, więc postępuj ostrożnie, nawet jeśli istnieje wyraźne uzasadnienie dla uśrednienia.
Oto sytuacja, która nie jest dobrym pomysłem. Weź pod uwagę, że ostrożnie definiując grupy, możesz (zwykle) zredukować swoje dane do dwóch punktów podsumowania, z których każdy jest odrębny dla dwóch zmiennych; i wtedy osiągnąłbyś idealną korelację z wielkością . Gratulacje, czy nie! Ulepszenie tutaj jest fałszywe bez dobrego niezależnego powodu procedury. Nie musisz podchodzić do tego ekstremalnego przypadku, aby zbliżyć się do niebezpieczeństwa.1
Istnieją sytuacje, w których uśrednianie może mieć sens. Na przykład, jeśli zmiany sezonowe są mało lub nie są interesujące, wówczas uśrednianie wartości rocznych tworzy ograniczony zestaw danych, w którym można skupić się na tych wartościach rocznych.
W różnych dziedzinach badacze mogliby być zainteresowani korelacjami w dość różnych skalach, np. Między bezrobociem a przestępczością dla osób, powiatów, stanów, krajów (zamień te, które mają sens).
Zainteresowanie, a często także główne źródło problemów wnioskowania, polega na interpretacji tego, co dzieje się na różnych skalach i poziomach. Na przykład wysoka korelacja między stopą bezrobocia a wskaźnikiem przestępczości dla obszarów niekoniecznie oznacza, że bezrobotni mają większą skłonność do bycia przestępcami; potrzebujesz jasnych danych na temat osób fizycznych. Dostarczanie danych może być maksymalnie niewygodne, ponieważ dane są dostępne tylko w najmniej interesującej skali, być może ze względu na oszczędność lub poufność.
Zauważam również, że wiele pomiarów jest przede wszystkim często uśrednianych w małych odstępach czasu i / lub małych odstępach czasu, więc dane często docierają w każdym przypadku uśrednione.
źródło