Mam ten ogromny zestaw danych z około 2500 zmiennymi i podobnymi 142 obserwacjami.
Chcę uruchomić korelację między zmienną X a resztą zmiennych. Ale w wielu kolumnach brakuje wpisów.
Próbowałem to zrobić w R za pomocą argumentu „pairwise-complete” ( use=pairwise.complete.obs
) i uzyskałem wiązkę korelacji. Ale potem ktoś na StackOverflow opublikował link do tego artykułu http://bwlewis.github.io/covar/missing.html i sprawia, że metoda „kompletowania parami” w R wygląda na bezużyteczną.
Moje pytanie: Skąd mam wiedzieć, kiedy należy skorzystać z opcji „kompletowania parami”?
Moja use = complete.obs
wróciła no complete element pairs
, więc jeśli można wyjaśnić, co to znaczy też, że byłoby świetnie.
r
correlation
missing-data
correlation-matrix
Stan Shunpike
źródło
źródło
Odpowiedzi:
Problem z korelacjami na kompletnych obserwacjach parami
W opisanym przypadku głównym problemem jest interpretacja. Ponieważ używasz pełnych obserwacji parami, w rzeczywistości analizujesz nieco różne zestawy danych dla każdej z korelacji, w zależności od brakujących obserwacji.
Rozważ następujący przykład:
Trzy zmienne w zbiorze danych
a
,b
ic
każdy ma kilka brakujących wartości. Jeśli obliczysz tutaj korelacje dla par zmiennych, będziesz mógł używać tylko przypadków, w których nie ma brakujących wartości dla obu zmiennych. W tym przypadku oznacza to, że będziesz analizował tylko 3 ostatnie przypadki pod kątem korelacji międzya
ib
, tylko pierwsze trzy przypadki pod kątem korelacji międzyb
ic
itp.Fakt, że analizujesz zupełnie różne przypadki podczas obliczania każdej korelacji, oznacza, że wynikowy wzór korelacji może wyglądać bezsensownie. Widzieć:
To wygląda logicznej sprzeczności ---
a
ib
są silnie dodatnio skorelowane, ab
ic
są silnie dodatnio skorelowane, więc można się spodziewaća
, ac
być dodatnio skorelowane, a także, ale jest faktycznie silny związek w kierunku przeciwnym. Możesz zobaczyć, dlaczego wielu analityków tego nie lubi.Edytuj, aby uwzględnić przydatne wyjaśnienia z Whuber:
Zauważ, że część argumentu zależy od tego, co może oznaczać „silna” korelacja. Jest całkiem możliwe,
a
ab
takżeb
ic
być „silnie pozytywnie skorelowane”, podczas gdy istnieje „silne powiązanie w przeciwnym kierunku” pomiędzya
ic
, ale nie tak skrajnie jak w tym przykładzie. Sedno sprawy polega na tym, że szacowana macierz korelacji (lub kowariancji) może nie być jednoznacznie określona: w ten sposób należy kwantyfikować „silny”.Problem z rodzajem zaginięcia
Być może myślisz sobie: „Cóż, czy nie jest w porządku po prostu założyć, że podzbiór przypadków, które mam dostępne dla każdej korelacji, jest mniej więcej taki sam, jak w przypadku posiadania pełnych danych?” I tak, to prawda - nie ma nic zasadniczo złego w obliczaniu korelacji na podzbiorze danych (chociaż tracisz precyzję i moc, oczywiście z powodu mniejszej wielkości próbki), o ile dostępne dane są losowe próbka wszystkich danych, które byłyby tam, gdybyś nie zaginął.
Kiedy brak jest czysto przypadkowy, nazywa się to MCAR (brak całkowicie losowego). W takim przypadku analiza podzbioru danych, w których nie ma braków, nie będzie systematycznie obciążać wyników, a uzyskanie takiego rodzaju szalonych wzorców korelacji, które pokazałem w powyższym przykładzie, byłoby mało prawdopodobne (ale nie niemożliwe).
Kiedy twoje zaginięcie jest w jakiś sposób systematyczne (często w skrócie MAR lub NI, określające dwa różne rodzaje systematycznego zaginięcia), masz o wiele poważniejsze problemy, zarówno pod względem potencjalnego wprowadzenia błędu w obliczeniach, jak i zdolności do uogólnienia swojej wyniki dla zainteresowanej populacji (ponieważ analizowana próbka nie jest losową próbką z populacji, nawet jeśli byłby to pełny zestaw danych).
Istnieje wiele wspaniałych dostępnych zasobów, aby dowiedzieć się o brakujące dane i jak sobie z tym poradzić, ale moja rada jest taka, Rubin: klasyczny , a nowsza artykuł
źródło
Ogromnym problemem jest to, czy brakuje danych w jakiś systematyczny sposób, który mógłby zaszkodzić Twojej analizie. Twoje dane mogą nie być losowe.
Zostało to poruszone w poprzednich odpowiedziach, ale pomyślałem, że dam przykład.
Przykład finansów: brakujące zwroty mogą być słabymi zwrotami
W tych sytuacjach niekoniecznie wszystko jest stracone (są rzeczy, które możesz zrobić), ale naiwne przeprowadzanie regresji (lub obliczanie korelacji) na brakujących danych może prowadzić do poważnie tendencyjnych, niespójnych oszacowań prawdziwych parametrów w populacji.
źródło
Korelacja parowa jest odpowiednia, jeśli brakujące dane to Missing Complete At Random (MCAR). Książka Missing Data Paula Allisona jest dobrym miejscem na rozpoczęcie, dlaczego.
Możesz to przetestować za pomocą testu MCAR Little (1988), który znajduje się w
BaylorEdPsych
pakiecie.źródło