Pracuję z eksploracyjną analizą przestrzenną w R przy użyciu pakietu spdep.
Natknąłem się na opcję dostosowania wartości p lokalnych wskaźników asocjacji przestrzennej (LISA) obliczonych za pomocą localmoran
funkcji. Według dokumentów ma to na celu:
... korekta wartości prawdopodobieństwa dla wielu testów.
W dalszej części dokumentacji p.adjustSP
czytam, że dostępne opcje to:
Metody dostosowania obejmują korekcję Bonferroniego („„ bonferroni ””), w której wartości p są pomnożone przez liczbę porównań. Cztery mniej konserwatywne poprawki uwzględniono także w Holm (1979) („holm”), Hochberg (1988) („hochberg”), Hommel (1988) („hommel”) oraz Benjamini i Hochberg (1995) („„ fdr ””), odpowiednio. Uwzględniono również opcję przekazywania („„ brak ”).
Pierwsze cztery metody opracowano w celu zapewnienia silnej kontroli rodzinnego wskaźnika błędów. Wydaje się, że nie ma powodu, aby używać niezmodyfikowanej korekcji Bonferroniego, ponieważ jest ona zdominowana przez metodę Holma, która obowiązuje również przy dowolnych założeniach.
Metody Hochberga i Hommela są ważne, gdy testy hipotez są niezależne lub gdy nie są one negatywnie powiązane (Sarkar, 1998; Sarkar i Chang, 1997). Metoda Hommela jest silniejsza niż metoda Hochberga, ale różnica jest zwykle niewielka, a wartości p Hochberga są szybsze do obliczenia.
Metoda „BH” (aka „fdr”) i „BY” Benjaminiego, Hochberga i Yekutieli kontrolują współczynnik fałszywych odkryć, oczekiwany odsetek fałszywych odkryć wśród odrzuconych hipotez. Częstotliwość fałszywych odkryć jest mniej rygorystycznym warunkiem niż wskaźnik błędów dla całej rodziny, więc metody te są bardziej wydajne niż inne.
Kilka pytań, które się pojawiły:
- Krótko mówiąc - jaki jest cel tego dostosowania?
- Czy konieczne jest stosowanie takich poprawek?
- Jeśli tak - jak wybrać z dostępnych opcji?
Odpowiedzi:
krótko mówiąc, problem, który napotykasz, nazywa się testowaniem wielu hipotez . Powstaje podczas testowania, jak sama nazwa wskazuje, wielu hipotez jednocześnie.
Powiedzmy, że masz określone prawdopodobieństwo błędnego odrzucenia hipotezy zerowej (fałszywie dodatniej) dla testu, powiedzmy 5%. W miarę zwiększania liczby testowanych zestawów danych (w tym przypadku każdego zestawu, w którym stosuje się lokalną statystykę Morana), prawdopodobieństwo zaobserwowania w dowolnym zbiorze danych fałszywie dodatnich wzrośnie, niezależnie od prawdopodobieństwa zaobserwowania fałszywie dodatni dla jednego zestawu danych jest taki sam.
Istnieje wiele możliwych „poprawek”, które znalazłeś, aby rozwiązać ten problem; jeśli naprawdę potrzebujesz lokalnej statystyki, nie możesz jej uniknąć. W przeciwnym razie możesz użyć statystyki globalnej jako pojedynczej hipotezy.
źródło