Dlaczego korelacja Pearsona z danymi proporcji jest niewłaściwa?

10

Moduł online, który badam, stwierdza, że nigdy nie należy używać korelacji Pearsona z danymi proporcjonalnymi. Dlaczego nie?

Lub, jeśli czasami jest OK lub zawsze OK, dlaczego?

user1205901 - Przywróć Monikę
źródło
3
Co to mówi iw jakim kontekście? „Nigdy” nie wydaje się zbyt silne, chyba że mówi o bardzo ograniczonej sytuacji. Może być tak, że ktokolwiek to napisał, jest po prostu zły, ale bez kontekstu, jak mamy zgadywać?
Glen_b
2
Moduł online jest zastrzeżony i nie mogę go połączyć. Jednak znalazłem film, który stwierdza to samo: australianbioinformatics.net/the-pipeline/2013/3/19/... . Zarówno moduł, który widziałem, jak i ten film wskazują, że nie ma kontekstów, w których dopuszczalne byłyby skorelowane proporcje.
user1205901 - Przywróć Monikę
4
„Nigdy” nie jest zbyt silne. Istnieją powody, dla których należy zachować ostrożność przy interpretacji współczynników korelacji obejmujących proporcje, szczególnie te oparte na małych liczbach. Jednak ta sama analiza potwierdzająca te powody pokazuje również, że gdy proporcje są oparte na dużych liczbach, a proporcje są „wystarczająco daleko” od lub 1 , wówczas współczynniki korelacji nie są problematyczne. Ponadto zawsze można zgłosić współczynnik korelacji dla dowolnego zestawu sparowanych danych (gdzie oba składniki wykazują zmienność) jako statystykę podsumowującą (opisową). 01
whuber

Odpowiedzi:

6

Jest tak w przypadku, gdy kilka zmiennych sumuje się razem do 1, w każdej obserwacji. Moja odpowiedź będzie na poziomie intuicji; jest to zamierzone (a także, nie jestem ekspertem od danych dotyczących składu).

Pozwól nam mieć iid (stąd skorelowane z zero) zmienne o wartości dodatniej, które następnie sumujemy i przeliczamy jako proporcje tej sumy. Następnie,

  • W przypadku dwóch zmiennych V1 V2 , jeśli mówi się, że V1 zmienia się swobodnie, wówczas V2 nie ma miejsca na swobodę (ponieważ V1 + V2 = stała) i jest w pełni ustalona; im większa jest V1, tym mniejsza jest V2, tym mniejsza jest V1, tym większa jest V2. Ich korelacja wynosi i zawsze tak jest.-1
  • W przypadku 3 zmiennych V1 V2 V3 , jeśli mówi się, że V1 zmienia się swobodnie, wówczas V2 + V3 jest stałe; to znaczy, że wewnątrz (V2 + V3), każda z tych dwóch zmiennych są nadal częściowo wolne: są one na średnich razy stałych każda pełna ustalone w całości. Tak więc, jeśli ktoś z trzech zmiennych jest traktowane jako wolne (jak wzięliśmy V1), każdy z pozostałych dwóch Oczekuje się 1 / 2 stałe. Tak więc korelacja między nimi wynosi - 0,5 . Jest to oczekiwana korelacja; może różnić się w zależności od próbki.1/2)1/2)-0,5
  • W przypadku 4 zmiennych V1 V2 V3 V4 przez samych podstawach mamy, że jeśli weźmie się w jedno z czterech jak wolne następnie oczekuje się jednego z pozostałych do stałej; Tak więc, oczekuje się korelacja między dowolnymi dwoma z czterech - jeden za wolne drugi jako 1 / 3 stałe - jest - 0,333 .1/3)1/3)-0,333
  • W miarę wzrostu liczby (początkowo iid) zmiennych, oczekiwana korelacja par rośnie od ujemnej do , a jej zmienność między próbkami staje się większa.0
ttnphns
źródło
OK, ale myślę, że zainteresowanie jest w parach V1, V2, każde V sumuje się do 1 (100%), ale nie ma ograniczenia dla pojedynczego V, z wyjątkiem tego, że każdy jest ułamkiem.
Nick Cox
each V summing to 1 ( 100%)Przepraszam? Nie zrozumiałem cię Nie nakładam żadnych ograniczeń na indywidualne V, będąc jedynie ułamkiem. Jednak początkowym ograniczeniem było to, że mój przykład zakłada zerowe korelacje przed zamianą Vs na ułamki.
ttnphns
Czy miałeś na myśli, że każde V ma wartości sumujące się do 1 („pionowo”)? Nie, miałem na myśli „poziomo”, między zmiennymi. Ale niestety OP nie wyjaśnił sedna pytania. Więc wziąłem to, co wziąłem.
ttnphns
Tak; to znaczy myślę, co tu zwykle oznacza, ale pytanie nie jest szczególnie jasne.
Nick Cox
1
@ttnphns Widziałem stwierdzenie, że nigdy nie należy wykonywać korelacji Pearsona dla dwóch zmiennych mierzonych jako proporcje. Próbowałem to wyjaśnić, edytując OP, aby podświetlić słowo „nigdy”. Film zawiera to samo stwierdzenie w tytule („Nie koreluj proporcji!”), Choć omawiają to tylko w kontekście danych dotyczących składu. Celowo pozostawiłem kontekst niezdefiniowany, ponieważ moje źródło oświadczyło, że korelacji Pearsona nie należy stosować do danych proporcji w żadnym kontekście. Wydaje się jednak, że odpowiedź na moje pytanie brzmi: „Skorelowanie proporcji jest w porządku, z wyjątkiem niektórych kontekstów”.
user1205901 - Przywróć Monikę
10

Link wideo Twojego komentarza nadaje kontekst kompozycjom, które można również nazwać miksturami. W takich przypadkach suma udziału każdego składnika sumuje się do 1. Na przykład powietrze to 78% azotu, 21% tlenu i 1% innych (suma wynosi 100%). Biorąc pod uwagę, że ilość jednego składnika jest całkowicie określana przez pozostałe, dowolne dwa składniki będą miały idealną relację wieloliniową. Na przykład w powietrzu mamy:

x1+x2)+x3)=1

więc wtedy:

x1=1-x2)-x3)

x2)=1-x1-x3)

x3)=1-x1-x2)

Więc jeśli znasz jakieś dwa elementy, trzeci jest natychmiast znany.

Zasadniczo ograniczenie dotyczące mieszanin wynosi

ja=1qxja=1

xja

Można obliczyć korelację między dwoma składnikami, ale nie ma ona charakteru informacyjnego , ponieważ zawsze są one skorelowane. Więcej na temat analizy składu można przeczytać w części Analiza danych mierzonych jako skład proporcjonalny .

Można użyć korelacji, gdy dane proporcji pochodzą z różnych domen. Powiedz, że twoja odpowiedź to ułamek martwych pikseli na ekranie LCD. Możesz spróbować skorelować to z, powiedzmy, frakcją helu użytą na etapie przetwarzania chemicznego ekranu.

czernieje
źródło
Rozumiem - błędnie myślałem, że kompozycje są tylko przykładem. Czy zatem można uczciwie powiedzieć, że skorelowane proporcje są na ogół bezproblemowe, chyba że masz sytuację, w której kompozycje „wymuszają” korelację?
user1205901 - Przywróć Monikę
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipnie jest jasne. Czy możesz to rozwinąć?
ttnphns
Ja również nie rozumiem tej odpowiedzi. W przykładzie z 3 zmiennymi każda jest „określana” przez DWIE inne, ale korelacja Pearsona analizuje tylko jedną zmienną w stosunku do JEDNEJ innej. Na przykład, patrząc na azot w porównaniu z tlenem, możesz mieć zestaw danych (azot, tlen) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)], i możesz zrobić prawidłowy współczynnik korelacji obliczenia na tych danych (i na pewno nie są one współliniowe). Współczynnik korelacji Pearsona nie zna i nie dba o „innych” tam ...
Jason C
3
Jako rodzaj meta-komentarza nie spodziewałbym się, że niedostępny materiał będzie cytowany jako autorytet w jakimkolwiek punkcie statystycznym, nie że nie proponujesz tego zrobić. Jest to więc proste na jednym poziomie: istnieje literatura na temat analizy danych kompozycyjnych, gdzie można szukać; Nie jestem ekspertem, więc nie mogę powiedzieć, co jest najbardziej autorytatywne w kwestii korelacji, ale instynktownie mam wrażenie, że ostrzeżenie jest przesadzone. Pomocne może być opisowe użycie korelacji. Po prostu wnioskowanie jest skomplikowane przez ograniczenie sum.
Nick Cox
Myślę, że „część martwych pikseli” byłaby odpowiednia, gdybyśmy zbierali pomiary z ekranów LCD o tej samej liczbie pikseli, a ciśnienie gazu w procesie pozostało stałe. Ale kiedy zaczniesz zezwalać na zmianę mianowników tych proporcji, kto może powiedzieć, jaki jest wpływ helu?
David Lovell
5

To głębokie pytanie, które wymaga pewnych subtelności. Postaram się jak najlepiej, ale mimo że opublikowałem na ten temat ( Proporcjonalność: ważna alternatywa dla korelacji dla danych względnych ), zawsze jestem przygotowany na zaskoczenie nowymi spostrzeżeniami na temat analizy danych zawierających jedynie informacje względne.

Jak zauważyli współautorzy tego wątku, korelacja jest notorycznie (w niektórych kręgach) uznawana za nieistotną, gdy jest stosowana do danych kompozycyjnych, które powstają, gdy zbiór komponentów jest ograniczony do zsumowania do stałej (jak widzimy w proporcjach, procentach, części na milion itp.).

Karl Pearson wymyślił w tym kontekście termin fałszywa korelacja . (Uwaga: popularna witryna Tyler Vigen Spurious Correlation nie tyle chodzi o fałszywą korelację, ile o błąd „ korelacja implikuje przyczynę ”).

Sekcja 1.7 Aitchisona (2003) Zwięzły przewodnik po analizie danych kompozycyjnych stanowi klasyczną ilustrację, dlaczego korelacja jest nieodpowiednią miarą powiązania danych kompozycyjnych (dla wygody, cytowaną w niniejszej informacji uzupełniającej) .

Dane kompozycyjne powstają nie tylko wtedy, gdy zestaw składników nieujemnych jest sumowany do stałej; uważa się, że dane są kompozycyjne, ilekroć zawierają jedynie informacje względne.

Myślę, że głównym problemem związanym z korelacją danych zawierających wyłącznie informacje względne jest interpretacja wyniku. Jest to problem, który możemy zilustrować za pomocą jednej zmiennej; powiedzmy „wyprodukowane pączki na jednego dolara PKB” we wszystkich narodach świata. Jeśli wartość jednego narodu jest wyższa niż innego, to dlatego, że

  • ich produkcja pączków jest wyższa?
  • ich PKB jest niższy?

...kto może powiedzieć?

Oczywiście, jak zauważają ludzie w tym wątku, można obliczyć korelacje tego rodzaju zmiennych jako zmienną opisową. Ale co oznaczają takie korelacje?

David Lovell
źródło
3

Miałem to samo pytanie. Uznałem to odniesienie w biorxiv za przydatne:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
„Proporcjonalność: ważna alternatywa dla korelacji dla danych względnych”

W informacjach uzupełniających tego artykułu (Lovell, David i in.; Doi: dx.doi.org/10.1101/008417) autorzy wspominają, że korelacje między względnymi liczebnościami nie dostarczają żadnych informacji w niektórych przypadkach. Dają przykład względnej obfitości dwóch ekspresji mRNA. Na ryc. S2 względne obfitości dwóch różnych mRNA są doskonale ujemnie skorelowane, nawet jeśli korelacja tych dwóch mRNA w wartościach bezwzględnych nie jest ujemnie powiązana (zielone punkty i fioletowe punkty).

Może to może ci pomóc.

pozwać
źródło
2
Dziękuję za twoją sugestię. Nie wyjaśniłem tego. Na poparcie informacji zawartych w tym artykule (Lovell, David i in.; Doi: dx.doi.org/10.1101/008417 ) autorzy wspominają, że korelacje między względnymi liczebnościami nie dostarczają żadnych informacji w niektórych przypadkach. Dają przykład względnej obfitości dwóch ekspresji mRNA. Na ryc. S2 względne obfitości dwóch różnych mRNA są doskonale ujemnie skorelowane, nawet jeśli korelacja tych dwóch mRNA w wartościach bezwzględnych nie jest ujemna (zielone punkty i fioletowe punkty).
pozwać
@shu może mógłbyś powiedzieć, dlaczego ten artykuł pomógł ci z podobnym problemem i podsumował go ..? Wklejanie linku nie jest odpowiedzią, więc proszę rozwinąć nieco więcej. Powodem tego jest również to, że linki umierają, a jeśli chcesz, aby twoja odpowiedź była pomocna dla kogoś w przyszłości, powinieneś uczynić ją spójną. Oczywiście dostarczanie referencji oprócz odpowiedzi to dobry nawyk.
Tim