Na przykład korelacja ważona?

14

Mam kilka interesujących danych na temat najpopularniejszych artystów muzycznych przesyłanych strumieniowo, podzielonych według lokalizacji na około 200 dzielnic kongresowych. Chcę sprawdzić, czy można sondować osobę o jej preferencjach muzycznych i ustalić, czy ona „słucha jak demokrata” czy „słucha jak republikanin”. (Oczywiście jest to beztroskie, ale dane zawierają prawdziwą entropię!)

Mam dane na temat około 100 artystów plus średni procent głosów republikanów i demokratów w każdej dzielnicy w ciągu ostatnich trzech cykli wyborczych. Przeprowadziłem korelację z każdym artystą, aby zobaczyć, którzy z nich byli najbardziej nieproporcjonalnie wysłuchani jako funkcja udziału w głosowaniu dla Demokratów. Korelacje te wahają się od około -0,3 do 0,3 dla każdego artysty, z dużą ilością pośrodku, które mają niewielką lub żadną moc predykcyjną.

Mam dwa pytania: Po pierwsze, ogólna liczba strumieni w dzielnicy jest bardzo zróżnicowana. Obecnie koreluję odsetek wszystkich strumieni na dzielnicę należących, powiedzmy, Beyonce, do odsetka głosów oddanych na Demokratów. Ale łączna liczba strumieni w jednej dzielnicy może być w milionach, podczas gdy w drugiej jest mniej niż 100 000. Czy muszę jakoś wyważyć korelację, aby to uwzględnić?

Po drugie, jestem ciekawy, jak połączyć te korelacje w złożone domysły dotyczące polityki użytkownika. Powiedzmy, że biorę 20 artystów o najwyższych bezwzględnych wartościach korelacyjnych (dodatnich i ujemnych), po dziesięć w każdym kierunku, i pytam użytkownika, jak bardzo lubi każdego z nich. Mam więc głos w górę lub w dół na każdego artysty oraz korelację z polityką dla wszystkich 20 wartości. Czy istnieje standardowy sposób na połączenie tych korelacji w jedno oszacowanie? (Myślę o czymś w rodzaju słynnego quizu dialektów NYTimes , w którym połączyłem regionalne prawdopodobieństwa 25 pytań w mapę termiczną. Ale w tym przypadku potrzebuję tylko jednej wartości, jak smakuje demokratyczny lub republikański gust muzyczny.

Dziękuję Ci!

Chris Wilson
źródło

Odpowiedzi:

25

Wzór na ważoną korelację Pearsona można łatwo znaleźć w Internecie , StackOverflow i Wikipedii i jest zaimplementowana w kilku pakietach R, np. Psych , lub wagach oraz w pakiecie statsmodels Pythona . Jest obliczany jak zwykła korelacja, ale przy użyciu średnich ważonych ,

mX=iwixiiwi,    mY=iwiyiiwi

ważone wariancje ,

sX=iwi(ximX)2iwi,    sY=iwi(yimY)2iwi

i ważona kowariancja

sXY=iwi(ximX)(yimY)iwi

mając to wszystko, możesz łatwo obliczyć korelację ważoną

ρXY=sXYsXsY

Jeśli chodzi o twoje drugie pytanie, jak rozumiem, miałbyś dane dotyczące korelacji między orientacją polityczną a preferencjami dla dwudziestu artystów i użytkowników, binarne odpowiedzi na temat jego preferencji i chcesz uzyskać jakąś zbiorczą miarę tego.

z opisano na MathOverflow , czyli

ρ¯=tanh1(j=1Ktanh(ρj)K)

Zasadniczo biorąc stycznych współczynników korelacji „spłaszcza” wartości ekstremalne (patrz poniżej), dzięki czemu mają one mniejszy wpływ na ostateczne oszacowanie i zbliżają ich rozkład do normy. Procedurę tę opisali również Bushman i Wang (1995) oraz Corey, Dunlap i Burke (1998).

wprowadź opis zdjęcia tutaj

r=cor(X,Y)r=cor(X,Y)=cor(X,Y)

rjjxijijxij=1xij=1

r¯i=tanh1(j=1Ktanh(rjxij)K)

11

Ale...

Nie sądzisz, że to wszystko jest przesadą w przypadku czegoś, co jest w zasadzie problemem regresji wielokrotnej? Zamiast tego wszystkie ważenia i uśrednianie można po prostu zastosować ważoną regresję wielokrotną (liniową lub logistyczną, w zależności od tego, czy przewidujesz preferencje binarne lub preferencje stopniowe w dowolnym kierunku), gdzie wagi są oparte na rozmiarach podpróbek. Jako predyktora użyłbyś preferencji muzycznych dla każdego artysty. Na koniec będziesz używać preferencji użytkownika do przewidywania. To podejście jest prostsze i bardziej statystycznie eleganckie. Dotyczy to również względnychAB kont i regresji, włączając przechwytywanie. Jedynym problemem jest wielokoliniowość, ale gdy uśredniasz korelacje, ignorujesz je, a nie sobie z nimi radzisz.


Bushman, BJ i Wang, MC (1995). Procedura łączenia przykładowych współczynników korelacji i liczenia głosów w celu uzyskania oszacowania i przedziału ufności dla współczynnika korelacji populacji. Biuletyn psychologiczny, 117 (3), 530.

Corey, DM, Dunlap, WP i Burke, MJ (1998). Uśrednianie korelacji: oczekiwane wartości i stronniczość w połączonych transformacjach Pearsona i Fishera z, The Journal of General Psychology, 125 (3), 245-261.

Tim
źródło
Dziękuję Ci! To ogromnie pomaga. Przyznają nagrodę, gdy będzie dostępna później dzisiaj.
Chris Wilson,
xiyja
1
@Kagaratsch Nigdy nie widziałem takiej formuły. To kwalifikuje się jako miłe pytanie.
Tim