Mam kilkaset pomiarów. Teraz rozważam wykorzystanie jakiegoś oprogramowania do skorelowania każdej miary z każdą miarą. Oznacza to, że istnieją tysiące korelacji. Wśród nich powinna być (statystycznie) wysoka korelacja, nawet jeśli dane są całkowicie losowe (każda miara ma tylko około 100 punktów danych).
Kiedy znajdę korelację, w jaki sposób mogę dołączyć do niej informację o tym, jak bardzo szukałem korelacji?
Nie jestem na wysokim poziomie statystyki, więc proszę o wyrozumiałość.
R
na tej maszynie zajmuje 18 sekund, aby uzyskać 1000 realizacji zerowego rozkładu permutacji maksymalnego współczynnika korelacji dla macierzy 300 na 100x
:correl <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))
Odpowiedzi:
To doskonałe pytanie, godne kogoś, kto jest jasnym myślicielem statystycznym, ponieważ rozpoznaje subtelny, ale ważny aspekt wielokrotnych testów.
Istnieją standardowe metody korygowania wartości p wielu współczynników korelacji (lub równoważnie w celu rozszerzenia ich przedziałów ufności), takie jak metody Bonferroniego i Sidaka ( qv ). Są one jednak zbyt konserwatywne w przypadku dużych macierzy korelacji ze względu na nieodłączne zależności matematyczne, które muszą zachowywać się wśród współczynników korelacji w ogóle. (Aby zapoznać się z niektórymi przykładami takich relacji, zobacz ostatnie pytanie i wynikający z tego wątek .) Jednym z najlepszych podejść do radzenia sobie z tą sytuacją jest przeprowadzenie testu permutacji (lub ponownego próbkowania). Łatwo jest to zrobić za pomocą korelacji: w każdej iteracji testu po prostu losowo szyfruj porządek wartości każdego z pól (niszcząc w ten sposób wszelką nieodłączną korelację) i ponownie oblicz pełną macierz korelacji. Zrób to dla kilku tysięcy iteracji (lub więcej), a następnie podsumuj rozkłady wpisów macierzy korelacji, na przykład przez podanie ich 97,5 i 2,5 percentyli: posłużyłyby one jako wzajemne symetryczne dwustronne 95% przedziały ufności poniżej wartości zerowej hipoteza braku korelacji. (Za pierwszym razem, gdy zrobisz to z dużą liczbą zmiennych, zdziwisz się, jak wysokie mogą być niektóre współczynniki korelacji, nawet jeśli nie ma nieodłącznej korelacji).
Podczas raportowania wyników, niezależnie od wykonywanych obliczeń, należy uwzględnić następujące elementy:
Rozmiar macierzy korelacji ( tj. Ile zmiennych oglądałeś).
Jak określiłeś wartości p lub „istotność” któregokolwiek ze współczynników korelacji ( np. Pozostawiłeś je bez zmian , zastosowałeś korektę Bonferroniego, wykonałeś test permutacyjny lub cokolwiek innego).
Czy spojrzałeś na alternatywne miary korelacji, takie jak korelacja rang Spearmana . Jeśli tak, wskaż również, dlaczego wybrałeś metodę, której używasz.
źródło
Z odpowiedzi na pytanie zadane przez Petera Floma wynika, że lepiej byłoby skorzystać z technik, które sprawdzają strukturę wyższego poziomu w macierzy korelacji.
Techniki takie jak analiza czynnikowa, PCA, skalowanie wielowymiarowe i analiza skupień zmiennych mogą być używane do grupowania zmiennych w zestawy stosunkowo bardziej powiązanych zmiennych.
Możesz także teoretycznie zastanowić się, jaki rodzaj struktury powinien być obecny. Gdy liczba zmiennych jest duża, a liczba obserwacji jest niewielka, często lepiej polegać na wcześniejszych oczekiwaniach.
źródło
To jest przykład wielu porównań. Jest na ten temat duża literatura.
Jeśli masz, powiedzmy, 100 zmiennych, będziesz mieć 100 * 99/2 = 4950 korelacji.
Jeśli dane są tylko szumem, można oczekiwać, że 1 na 20 z nich będzie znaczący przy p = 0,05. To 247,5
Jednak zanim pójdziemy dalej, dobrze byłoby powiedzieć, DLACZEGO to robisz. Czym są te zmienne, dlaczego je korelujesz, jaki jest twój merytoryczny pomysł?
A może po prostu szukasz wysokich korelacji?
źródło
Być może mógłbyś przeprowadzić wstępną analizę losowego podzbioru danych, aby sformułować hipotezy, a następnie przetestować te kilka interesujących hipotez, korzystając z reszty danych. W ten sposób nie będziesz musiał poprawiać prawie tylu wielu testów. (Myślę...)
Oczywiście, jeśli zastosujesz taką procedurę, zmniejszysz rozmiar zestawu danych wykorzystywanego do końcowej analizy, a tym samym zmniejszysz swoją siłę do znajdowania prawdziwych efektów. Jednak korekty wielu porównań również zmniejszają moc, więc nie jestem pewien, czy koniecznie byś coś stracił.
źródło