Test rozkładu bimodalnego

30

Zastanawiam się, czy istnieje jakiś test statystyczny do „przetestowania” znaczenia rozkładu bimodalnego. Mam na myśli, w jakim stopniu moje dane spełniają rozkład bimodalny, czy nie? Jeśli tak, czy jest jakiś test w programie R?

Pauloc
źródło
3
Nie znalazłeś odpowiedzi, przeszukując naszą stronę ? Jeśli nie, czego brakuje?
whuber
7
Istnieją testy na bimodalność lub multimodalność, ale zazwyczaj są one jednostronne. Oznacza to, że możesz wyciągać wnioski takie jak „istnieje więcej niż jeden tryb”, ale nie możesz powiedzieć „jest mniej niż trzy tryby” - możesz uzyskać dolne granice liczby trybów, ale tak naprawdę nie możesz uzyskać górnych granic, ponieważ można znaleźć rozkład multimodalny z dowolną liczbą trybów, który jest arbitralnie zbliżony do rozkładu z dowolną mniejszą liczbą trybów. Zobaczę, czy mogę wykopać jakieś wyraźne testy lub referencje.
Glen_b
4
Strona wikipedii poświęcona dystrybucji bimodalnej zawiera osiem testów multimodalności przeciwko unimodalności i zawiera odniesienia do siedmiu z nich. Nie jestem pewien, czy są w R. Będę szukać.
Glen_b

Odpowiedzi:

17

Innym możliwym podejściem do tego problemu jest zastanowienie się, co może się dziać za kulisami, które generują widoczne dane. Oznacza to, że można myśleć w kategoriach modelu mieszanki , na przykład modelu mieszanki Gaussa. Na przykład możesz sądzić, że twoje dane pochodzą z jednej normalnej populacji lub z mieszaniny dwóch normalnych rozkładów (w pewnej proporcji), z różnymi środkami i wariancjami. Oczywiście nie musisz wierzyć, że istnieje tylko jeden lub dwa, ani nie musisz wierzyć, że populacje, z których pochodzą dane, muszą być normalne.

Istnieją (co najmniej) dwa pakiety R, które pozwalają oszacować modele mieszanin. Jeden pakiet to flexmix , a drugi to mclust . Po oszacowaniu dwóch modeli kandydujących uważam, że możliwe jest przeprowadzenie testu współczynnika wiarygodności. Alternatywnie możesz użyć parametrycznej metody krzyżowego ładowania początkowego ( pdf ).

gung - Przywróć Monikę
źródło
Cześć @gung, w przypadku parametrycznej metody dopasowania krzyżowego, jak zdefiniowałbyś optymalne kryterium w odniesieniu do rozkładu bimodalnego? Mogą wystąpić przypadki, w których dwa konkurujące ze sobą rozkłady krzyżują się w dwóch punktach. Co należy zrobić w takim przypadku?
akashrajkn
32

Jak wspomniano w komentarzach, strona Wikipedii na temat „Dystrybucja bimodalna” wymienia osiem testów multimodalności przeciwko nieimodalności i podaje odniesienia do siedmiu z nich.

W R. jest przynajmniej kilka. Na przykład:

  1. Pakiet diptestimplementuje test zanurzeniowy Hartigana.

  2. Te stampdane w bootstrappakiecie użyto Efron i Tibshirani za Wstępie do Bootstrap (książki, na której oparty jest pakiet), aby zrobić przykład odpowiadający ładowanie początkowe liczby trybów; jeśli masz dostęp do książki, możesz zastosować to podejście.

    Efron, B. i Tibshirani, R. (1993) Wprowadzenie do Bootstrap .
    Chapman and Hall, Nowy Jork, Londyn.

-

Istnieje pytanie dotyczące CV, które mówi o określeniu (tj. Oszacowaniu, a nie przetestowaniu) liczby trybów, które pojawia się przy wyszukiwaniu @ whubera. Tam warto przeczytać odpowiedzi. Jedna z odpowiedzi (moja, jak to się zdarza) zawiera link do wyszukiwarki Google, która pokazuje ten artykuł Davida Donoho na temat budowy jednostronnych elementów CI dla liczby trybów, które oczywiście można wykorzystać jako test (np. , jeśli jednostronny interwał nie obejmuje przypadku unimodalnego, możesz odrzucić unimodalność). Według mojej najlepszej wiedzy tak nie jestjeden z testów wspomnianych przez Wikipedię. Nie sądzę, aby istniała implementacja R tego przedziału czasu, ale (pomimo faktu, że Donoho ma tendencję do używania dość wyrafinowanych narzędzi w swojej dyskusji na ten temat), jest to dość prosty pomysł na wdrożenie. Pomysł ten jest bezpośrednio związany z pojęciem szacowania gęstości jądra.

Glen_b - Przywróć Monikę
źródło
To cenna praca.
rolando2