Czy istnieje poważny problem z pomijaniem obserwacji z brakującymi wartościami podczas obliczania macierzy korelacji?

Mam ten ogromny zestaw danych z około 2500 zmiennymi i podobnymi 142 obserwacjami.

Chcę uruchomić korelację między zmienną X a resztą zmiennych. Ale w wielu kolumnach brakuje wpisów.

Próbowałem to zrobić w R za pomocą argumentu „pairwise-complete” ( use=pairwise.complete.obs) i uzyskałem wiązkę korelacji. Ale potem ktoś na StackOverflow opublikował link do tego artykułu http://bwlewis.github.io/covar/missing.html i sprawia, że metoda „kompletowania parami” w R wygląda na bezużyteczną.

Moje pytanie: Skąd mam wiedzieć, kiedy należy skorzystać z opcji „kompletowania parami”?

Moja use = complete.obswróciła no complete element pairs, więc jeśli można wyjaśnić, co to znaczy też, że byłoby świetnie.

r correlation missing-data correlation-matrix Stan Shunpike
źródło

Klasyczną historią do poznania jest historia Abrahama Walda i pytanie, gdzie dodać zbroję do samolotów podczas II wojny światowej . Ważne jest zrozumienie, dlaczego brakuje Twoich danych.

Matthew Gunn

Odpowiedzi:

Problem z korelacjami na kompletnych obserwacjach parami

W opisanym przypadku głównym problemem jest interpretacja. Ponieważ używasz pełnych obserwacji parami, w rzeczywistości analizujesz nieco różne zestawy danych dla każdej z korelacji, w zależności od brakujących obserwacji.

Rozważ następujący przykład:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)

Trzy zmienne w zbiorze danych a, bi ckażdy ma kilka brakujących wartości. Jeśli obliczysz tutaj korelacje dla par zmiennych, będziesz mógł używać tylko przypadków, w których nie ma brakujących wartości dla obu zmiennych. W tym przypadku oznacza to, że będziesz analizował tylko 3 ostatnie przypadki pod kątem korelacji między ai b, tylko pierwsze trzy przypadki pod kątem korelacji między bi citp.

Fakt, że analizujesz zupełnie różne przypadki podczas obliczania każdej korelacji, oznacza, że wynikowy wzór korelacji może wyglądać bezsensownie. Widzieć:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

To wygląda logicznej sprzeczności --- ai bsą silnie dodatnio skorelowane, a bi csą silnie dodatnio skorelowane, więc można się spodziewać a, a cbyć dodatnio skorelowane, a także, ale jest faktycznie silny związek w kierunku przeciwnym. Możesz zobaczyć, dlaczego wielu analityków tego nie lubi.

Edytuj, aby uwzględnić przydatne wyjaśnienia z Whuber:

Zauważ, że część argumentu zależy od tego, co może oznaczać „silna” korelacja. Jest całkiem możliwe, aa btakże bi cbyć „silnie pozytywnie skorelowane”, podczas gdy istnieje „silne powiązanie w przeciwnym kierunku” pomiędzy ai c, ale nie tak skrajnie jak w tym przykładzie. Sedno sprawy polega na tym, że szacowana macierz korelacji (lub kowariancji) może nie być jednoznacznie określona: w ten sposób należy kwantyfikować „silny”.

Problem z rodzajem zaginięcia

Być może myślisz sobie: „Cóż, czy nie jest w porządku po prostu założyć, że podzbiór przypadków, które mam dostępne dla każdej korelacji, jest mniej więcej taki sam, jak w przypadku posiadania pełnych danych?” I tak, to prawda - nie ma nic zasadniczo złego w obliczaniu korelacji na podzbiorze danych (chociaż tracisz precyzję i moc, oczywiście z powodu mniejszej wielkości próbki), o ile dostępne dane są losowe próbka wszystkich danych, które byłyby tam, gdybyś nie zaginął.

Kiedy brak jest czysto przypadkowy, nazywa się to MCAR (brak całkowicie losowego). W takim przypadku analiza podzbioru danych, w których nie ma braków, nie będzie systematycznie obciążać wyników, a uzyskanie takiego rodzaju szalonych wzorców korelacji, które pokazałem w powyższym przykładzie, byłoby mało prawdopodobne (ale nie niemożliwe).

Kiedy twoje zaginięcie jest w jakiś sposób systematyczne (często w skrócie MAR lub NI, określające dwa różne rodzaje systematycznego zaginięcia), masz o wiele poważniejsze problemy, zarówno pod względem potencjalnego wprowadzenia błędu w obliczeniach, jak i zdolności do uogólnienia swojej wyniki dla zainteresowanej populacji (ponieważ analizowana próbka nie jest losową próbką z populacji, nawet jeśli byłby to pełny zestaw danych).

Istnieje wiele wspaniałych dostępnych zasobów, aby dowiedzieć się o brakujące dane i jak sobie z tym poradzić, ale moja rada jest taka, Rubin: klasyczny , a nowsza artykuł

Rose Hartman
źródło

+1. Zauważ, że część twojego argumentu zależy od tego, co może oznaczać „silna” korelacja. Jest całkiem możliwe, i oraz i jest „silnie dodatnio skorelowane”, podczas gdy istnieje silne powiązanie „w kierunku odwrotnym” pomiędzy i . Jednak nie jest możliwe, aby wszystkie trzy współczynniki korelacji były tak ekstremalne jak w twoim przykładzie, więc nic ci nie jest. Sedno sprawy polega na tym, że szacowana macierz korelacji (lub kowariancji) może nie być jednoznacznie określona: w ten sposób należy kwantyfikować „silny”.

a

$a$

b

$b$

b

$b$

c

$c$

a

$a$

c

$c$

whuber

@ whuber Dzięki, to ważny punkt. Zaktualizowałem tę sekcję odpowiedzi, aby uwzględnić to wyjaśnienie.

Rose Hartman

Ogromnym problemem jest to, czy brakuje danych w jakiś systematyczny sposób, który mógłby zaszkodzić Twojej analizie. Twoje dane mogą nie być losowe.

Zostało to poruszone w poprzednich odpowiedziach, ale pomyślałem, że dam przykład.

Przykład finansów: brakujące zwroty mogą być słabymi zwrotami

W przeciwieństwie do funduszy wspólnego inwestowania fundusze private equity (i inne fundusze prywatne) nie są zobowiązane przez prawo do zgłaszania swoich zwrotów w centralnej bazie danych.
Dlatego głównym problemem jest to, że sprawozdawczość ma charakter endogenny, a dokładniej, że niektóre firmy nie zgłaszają złych zysków.
Jeśli tak, to średnia z Funduszu zwraca zgłoszonych będą przeceniać prawdziwą średnią ponieważ niska wydają się być brakuje. $\frac{1}{n} \sum_i R_i$ $R_i$

W tych sytuacjach niekoniecznie wszystko jest stracone (są rzeczy, które możesz zrobić), ale naiwne przeprowadzanie regresji (lub obliczanie korelacji) na brakujących danych może prowadzić do poważnie tendencyjnych, niespójnych oszacowań prawdziwych parametrów w populacji.

Matthew Gunn
źródło

Korelacja parowa jest odpowiednia, jeśli brakujące dane to Missing Complete At Random (MCAR). Książka Missing Data Paula Allisona jest dobrym miejscem na rozpoczęcie, dlaczego.

Możesz to przetestować za pomocą testu MCAR Little (1988), który znajduje się w BaylorEdPsychpakiecie.

Tim
źródło

Nadal istnieją powody do niepokoju: nawet przy danych MCAR macierz korelacji oszacowana za pomocą korelacji par może nie być pozytywnie określona.

whuber

Jasne, ale pytanie dotyczy korelacji, nie wspomina o zastosowaniu wynikowej macierzy korelacji jako danych wejściowych do jakiegoś innego algorytmu. Biorąc pod uwagę wielkość próby, MCAR i tak jest mało prawdopodobne.

Tim

Jeśli macierz nie jest jednoznacznie określona, jest to niepoprawna wartość szacunkowa. Musimy przynajmniej martwić się tą niespójnością. Obawiam się, że nie rozumiem, w jaki sposób prawdopodobieństwo MCAR (które jest mechanizmem braku) może być związane z wielkością próby.

whuber

Pytający jest zainteresowany jednym rzędem macierzy korelacji. Czy masz dowód, że wszystkie korelacje są niepoprawne, jeśli macierz nie jest dodatnia? Chciałbym zobaczyć na to dowód i zdobyć trochę mądrości. Zasadniczo MCAR jest mało prawdopodobne w przypadku danych z prawdziwego świata. Przy dużej wielkości próbki zwiększa się moc testu Little'a, więc istnieje duża szansa na odrzucenie hipotezy zerowej MCAR. Nie zrozumcie mnie źle: nigdy nie użyłbym macierzy korelacji danych częściowych jako danych wejściowych do metody wielowymiarowej, ale nie o to pyta pytanie.

Tim

Pozwól, że wyjaśnię: nie twierdziłem, że korelacje są „wszystkie nieważne”. Twierdziłem, że zbiór szacunków korelacji (czyli macierzy) może być nieprawidłowy. Jest to bezdyskusyjne (nie wymagające dowodu), ponieważ wszystko, co trzeba zrobić, to pokazać jedną instancję niepoprawnego oszacowania, co @RoseHartman już zrobił w tym wątku. Nie będę kwestionować twojego twierdzenia, że MCAR może być mało prawdopodobne - pod warunkiem, że jest to rozumiane w sensie osobistym: z twojego doświadczenia, z rodzajami danych, które znasz, MCAR jest rzadkością. Nie rozumiem, jak możesz uzasadnić szerszą interpretację tego twierdzenia.

whuber