Czy dozwolone jest stosowanie średnich dla zbioru danych w celu poprawy korelacji?

Mam zestaw danych z zależną i niezależną zmienną. Oba nie są szeregami czasowymi. Mam 120 obserwacji. Współczynnik korelacji wynosi 0,43

Po tych obliczeniach dodałem kolumnę dla obu zmiennych ze średnią dla każdych 12 obserwacji, w wyniku czego otrzymałem 2 nowe kolumny ze 108 obserwacjami (parami). Współczynnik korelacji tych kolumn wynosi 0,77

Wygląda na to, że poprawiłem korelację w ten sposób. Czy to jest dozwolone? Czy zwiększyłem moc wyjaśniania zmiennej niezależnej za pomocą średnich?

regression correlation mean predictor cross-section użytkownik2165379
źródło

Wszystko, co zrobiłeś, to uruchomić dane przez filtr wygładzający. Odbywa się to cały czas przy przetwarzaniu sygnału i jest całkowicie akceptowalne i zwykle wymagane, zanim dane będą w ogóle użyteczne. Eliminuje hałas, który zawsze występuje w pomiarach elektronicznych. Jednak to, czy jest to możliwe do zaakceptowania dla konkretnego problemu, zależy od specyfiki tego, co próbujesz osiągnąć, i prawdopodobnie w dużym stopniu, ile „szumu” w porównaniu z „jakością” znajduje się w twoich danych. Właśnie zauważyłem „Oba nie są szeregiem czasowym”, więc podejrzewam, że to, co zrobiłeś, nie ma znaczenia, ponieważ zmiana kolejności zmienia wyniki

Dunk

Dziękuję wam wszystkim. Moja zmienna zależna to seria miesięcznych wyników systemu zakładów (wyniki te nie są powiązane). Zmienna niezależna jest wynikiem skonstruowanego przeze mnie wskaźnika. Ten wskaźnik generuje ocenę dotyczącą tego, jak ekstremalne były wyniki meczów sportowych w danym miesiącu (te wyniki sportowe nie są powiązane). Podejrzewałem, że to, co zrobiłem, było bez znaczenia, chociaż zaskoczyło mnie, że współczynnik korelacji tak bardzo się poprawił.

user2165379,

Nie jestem pewien, ale myślę, że uśrednienie jakichkolwiek danych dałoby podobne wyniki. Sądzę, że uśrednianie zmniejsza wpływ wartości odstających. Dlatego korelacja musiałaby ulec poprawie. Chociaż założę się, że jakiś math-geek może wymyślić dobrze dobrane dane, które spowodowałyby odwrotny wpływ, ale nie spodziewałbym się, że takie dane pojawią się w świecie rzeczywistym.

Dunk

Nie widziałem, czy podałeś, do czego służą te dane. Jednak ogólnie rzecz biorąc, przedstawiając dane określonym odbiorcom, dobrą praktyką jest ujawnienie, w jaki sposób dane zostały uzyskane.

Jon Milliken

Jaka jest korelacja uśrednionych wartości, które mają reprezentować? Z pewnością nie jest to już rozsądne oszacowanie korelacji między pierwotnymi zmiennymi.

Glen_b -Reinstate Monica

Odpowiedzi:

Rzućmy okiem na dwa wektory, z których pierwszy jest

    2 6 2 6 2 6 2 6 2 6 2 6

a drugi wektor jest

   6 2 6 2 6 2 6 2 6 2 6 2

Obliczanie korelacji Pearsona, którą otrzymasz

cor(a,b)
[1] -1

Jeśli jednak weźmiesz średnią kolejnych par dla wartości, oba wektory są identyczne. Wektory identyczne mają korelację 1.

  4 4 4 4 4 4

Ten prosty przykład ilustruje wadę twojej metody.

Edycja : aby wyjaśnić to bardziej ogólnie: Współczynnik korelacji oblicza się w następujący sposób.

$\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X\ \sigma_Y}$

Uśrednianie niektórych i niektórych zmienia różnice między i a także różnicę między i . $X$ $Y$ $X$ $\mu_X$ $Y$ $\mu_Y$

Ferdi
źródło

Dodałem trochę narzutów, ale możesz i powinieneś wyraźnie zdefiniować terminy i .

μ

$\mu$

σ

$\sigma$

Nick Cox,

Dziękuję Ci. Czy to oznacza, że moje wyniki są „zawyżone” pochlebnie przy użyciu średnich i że zawsze lepiej jest korzystać z obserwacji bez uśredniania?

user2165379,

Do testowania hipotez powinieneś spojrzeć na same dane, a nie na średnie. W innych domenach przydatne mogą być statystyki opisowe. Powinieneś także spojrzeć na inne metody statystyki opisowej, takie jak kwantyle (szczególnie mediana) i wyższe (scentralizowane) momenty, takie jak wariancja, skośność i kurtoza. Jednak w naszym przypadku nie jest to przydatne. Wektory a i b mają znaczenia takie same quantiles, te same momenty i te same scentralizowane chwil.

Ferdi

Uśrednianie ma tendencję do zwiększania korelacji poprzez usunięcie quasi-losowego rozproszenia, ale wystarczająco perwersyjne uśrednianie mogłoby popychać korelacje w kierunku zera.

Nick Cox,

Dziękuję Ci. Więc jeśli uśrednianie ma tendencję do zwiększania korelacji ogólnie, oznacza to, że nie jest to poprawa? A może jest to poprawa, ponieważ quasi-losowe rozproszenie zostało usunięte?

user2165379

Uśrednianie może być atrakcyjne lub wygodne. Może być również źródłem oszustwa, w najgorszym przypadku, więc postępuj ostrożnie, nawet jeśli istnieje wyraźne uzasadnienie dla uśrednienia.

Oto sytuacja, która nie jest dobrym pomysłem. Weź pod uwagę, że ostrożnie definiując grupy, możesz (zwykle) zredukować swoje dane do dwóch punktów podsumowania, z których każdy jest odrębny dla dwóch zmiennych; i wtedy osiągnąłbyś idealną korelację z wielkością . Gratulacje, czy nie! Ulepszenie tutaj jest fałszywe bez dobrego niezależnego powodu procedury. Nie musisz podchodzić do tego ekstremalnego przypadku, aby zbliżyć się do niebezpieczeństwa. $1$

Istnieją sytuacje, w których uśrednianie może mieć sens. Na przykład, jeśli zmiany sezonowe są mało lub nie są interesujące, wówczas uśrednianie wartości rocznych tworzy ograniczony zestaw danych, w którym można skupić się na tych wartościach rocznych.

W różnych dziedzinach badacze mogliby być zainteresowani korelacjami w dość różnych skalach, np. Między bezrobociem a przestępczością dla osób, powiatów, stanów, krajów (zamień te, które mają sens).

Zainteresowanie, a często także główne źródło problemów wnioskowania, polega na interpretacji tego, co dzieje się na różnych skalach i poziomach. Na przykład wysoka korelacja między stopą bezrobocia a wskaźnikiem przestępczości dla obszarów niekoniecznie oznacza, że bezrobotni mają większą skłonność do bycia przestępcami; potrzebujesz jasnych danych na temat osób fizycznych. Dostarczanie danych może być maksymalnie niewygodne, ponieważ dane są dostępne tylko w najmniej interesującej skali, być może ze względu na oszczędność lub poufność.

Zauważam również, że wiele pomiarów jest przede wszystkim często uśrednianych w małych odstępach czasu i / lub małych odstępach czasu, więc dane często docierają w każdym przypadku uśrednione.

Nick Cox
źródło

Powtarzam odpowiedź @ Ferdi, podkreślając, że istnieje wiele różnych sposobów na uśrednienie. Stwarza to dodatkowe źródło niepewności. Trudność jest szczególnie dotkliwa w agregowaniu małych obszarów do większych.

Nick Cox,