Kiedy wykreślam histogram moich danych, ma on dwa szczyty:
Czy to oznacza potencjalny rozkład multimodalny? Uruchomiłem dip.test
w R ( library(diptest)
), a dane wyjściowe to:
D = 0.0275, p-value = 0.7913
Czy mogę stwierdzić, że moje dane mają rozkład multimodalny?
DANE
10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487
15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289
25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 28088 23827
30707 19653 12791 13463 11465 12326 12277 12769 18341 19140 24590 28277 22694 15489
11070 11002 11579 9834 9364 15128 15147 18499 25134 32116 24475 21952 10272 15404
13079 10633 10761 13714 16073 23335 29822 26800 31489 19780 12238 15318 9646 11786
10906 13056 17599 22524 25057 28809 27880 19912 12319 18240 11934 10290 11304 16092
15911 24671 31081 27716 25388 22665 10603 14409 10736 9651 12533 17546 16863 23598
25867 31774 24216 20448 12548 15129 11687 11581
r
hypothesis-testing
distributions
self-study
histogram
użytkownik1260391
źródło
źródło
Odpowiedzi:
@NickCox przedstawił interesującą strategię (+1). Mogę jednak uznać to za bardziej odkrywcze z uwagi na obawy, które wskazuje @whuber .
Pozwól, że zasugeruję inną strategię: możesz dopasować model Gaussa do mieszanki skończonej. Zauważ, że powoduje to bardzo silne założenie, że twoje dane pochodzą z co najmniej jednej prawdziwej normy. Jak zarówno @whuber, jak i @NickCox wskazują w komentarzach, bez merytorycznej interpretacji tych danych - popartej dobrze ugruntowaną teorią - na poparcie tego założenia, strategię tę należy również uznać za eksploracyjną.
Najpierw zastosujmy się do sugestii @ Glen_b i spójrz na twoje dane, używając dwa razy więcej pojemników:
Nadal widzimy dwa tryby; jeśli już, to przejawiają się tu wyraźniej. (Należy również zauważyć, że linia gęstości jądra powinna być identyczna, ale wydaje się bardziej rozłożona z powodu większej liczby pojemników).
Teraz dopasujmy model mieszanki skończonej Gaussa. W
R
tym celu możesz użyćMclust
pakietu:Dwa normalne komponenty optymalizują BIC. Dla porównania możemy wymusić dopasowanie jednego elementu i przeprowadzić test współczynnika wiarygodności:
Sugeruje to, że jest bardzo mało prawdopodobne, abyś znalazł dane tak dalekie od unimodalnego jak twoje, gdyby pochodziły z jednego prawdziwego rozkładu normalnego.
Niektórzy ludzie nie czują się komfortowo, używając testu parametrycznego (chociaż jeśli założenia się utrzymują, nie znam żadnego problemu). Jedną z bardzo szeroko stosowanych technik jest użycie metody parametrycznego dopasowania krzyżowego (opisuję tutaj algorytm ). Możemy spróbować zastosować to do tych danych:
Statystyki podsumowujące i wykresy gęstości jądra dla rozkładów próbkowania pokazują kilka interesujących cech. Prawdopodobieństwo dziennika dla modelu jednoskładnikowego rzadko jest większe niż w przypadku dopasowania dwuskładnikowego, nawet jeśli proces generowania prawdziwych danych ma tylko jeden składnik, a gdy jest większy, ilość jest trywialna. Pomysł porównania modeli różniących się zdolnością do dopasowania danych jest jedną z motywów stojących za PBCM. Te dwa rozkłady próbkowania prawie się nie pokrywają; tylko 0,35% z nich
x2.d
jest mniej niż maksimumx1.d
wartość. Jeśli wybrałeś model dwuskładnikowy, jeśli różnica w prawdopodobieństwie logarytmu wynosiła> 9,7, niepoprawnie wybrałbyś model jednoskładnikowy .01% i model dwuskładnikowy w 0,02% przypadków. Są to wysoce dyskryminujące. Jeśli natomiast zdecydujesz się zastosować model jednoskładnikowy jako hipotezę zerową, zaobserwowany wynik jest wystarczająco mały, aby nie pojawił się w empirycznym rozkładzie próbkowania w 10 000 iteracjach. Możemy użyć reguły 3 (patrz tutaj ), aby ustalić górną granicę wartości p, a mianowicie szacujemy, że twoja wartość p jest mniejsza niż 0,0003. To jest bardzo istotne.Rodzi to pytanie, dlaczego wyniki tak bardzo odbiegają od testu zanurzeniowego. (Aby odpowiedzieć na twoje wyraźne pytanie, twój test zanurzeniowy nie dostarcza dowodów na istnienie dwóch rzeczywistych trybów.) Szczerze mówiąc, nie znam testu zanurzeniowego, więc trudno powiedzieć; to może być słabe. Myślę jednak, że prawdopodobną odpowiedzią jest to, że takie podejście zakłada, że twoje dane są generowane przez prawdziwe wartości normalne. Test Shapiro-Wilka dla danych jest bardzo istotny ( ), a także bardzo istotny dla optymalnej transformacji danych Box-Coxa (odwrotny pierwiastek kwadratowy; ). Jednak dane nigdy nie są tak naprawdę normalne (por. Ten słynny cytatp < 0,000001 p < 0,001 ), a komponenty leżące u ich podstaw, jeśli takie istnieją, nie są również gwarantowane jako całkowicie normalne. Jeśli uznasz, że uzasadnione jest, że twoje dane mogą pochodzić z dodatnio wypaczonego rozkładu, a nie normalnego, ten poziom bimodalności może również mieścić się w typowym zakresie zmienności, co, jak podejrzewam, mówi test zanurzeniowy.
źródło
Kontynuując pomysły w odpowiedzi i komentarzach @ Nicka, możesz zobaczyć, jak szerokie musi być pasmo, aby po prostu spłaszczyć tryb dodatkowy:
Weź to oszacowanie gęstości jądra jako proksymalną wartość zerową - rozkład najbliższy danym, ale wciąż zgodny z hipotezą zerową, że jest to próbka z populacji nieimodalnej - i symuluj na jej podstawie. W symulowanych próbkach tryb wtórny często nie wygląda tak wyraźnie i nie trzeba poszerzać szerokości pasma, aby go spłaszczyć.
Sformalizowanie tego podejścia prowadzi do testu przeprowadzonego przez Silvermana (1981), „Używanie oszacowań gęstości jądra do badania modalności”, JRSS B , 43 , 1.
silvermantest
Pakiet Schwaiger i Holzmann realizuje ten test, a także procedurę kalibracji opisaną przez Hall & York ( 2001), „O kalibracji testu Silvermana dla multimodalności”, Statistica Sinica , 11 , str. 515, która dostosowuje się do asymptotycznego konserwatyzmu. Wykonanie testu na danych z zerową hipotezą nieimodalności daje wartości p 0,08 bez kalibracji i 0,02 z kalibracją. Nie jestem wystarczająco zaznajomiony z testem zanurzeniowym, aby odgadnąć, dlaczego może się różnić.Kod R:
źródło
->
; Jestem po prostu oszołomiony.Rzeczy, o które należy się martwić to:
Rozmiar zestawu danych. Nie jest mały, nie jest duży.
Zależność tego, co widzisz, od początku histogramu i szerokości pojemnika. Mając tylko jeden oczywisty wybór, ty (i my) nie mamy pojęcia o wrażliwości.
Zależność tego, co widzisz, od rodzaju i szerokości jądra oraz od wszelkich innych wyborów dokonanych dla ciebie w szacowaniu gęstości. Mając tylko jeden oczywisty wybór, ty (i my) nie mamy pojęcia o wrażliwości.
W innym miejscu wstępnie zasugerowałem, że wiarygodność trybów jest wspierana (ale nie ustalona) przez merytoryczną interpretację i przez zdolność rozróżniania tej samej modalności w innych zestawach danych o tym samym rozmiarze. (Im większy, tym lepiej ....)
Nie możemy komentować żadnego z tych tutaj. Jednym małym uchwytem dotyczącym powtarzalności jest porównanie tego, co otrzymujesz z próbkami bootstrap tego samego rozmiaru. Oto wyniki eksperymentu z użyciem tokena przy użyciu Staty, ale to, co widzisz, jest arbitralnie ograniczone do domyślnych ustawień Staty, które same są udokumentowane jako wyrwane z powietrza . Otrzymałem oszacowania gęstości dla oryginalnych danych i dla 24 próbek bootstrap z tego samego.
Wskazanie (nie więcej, nie mniej) jest tym, co myślę, że doświadczeni analitycy zgadną w jakikolwiek sposób z twojego wykresu. Tryb lewej ręki jest wysoce powtarzalny, a prawa ręka jest wyraźnie bardziej delikatna.
Zauważ, że jest to nieuniknione: ponieważ jest mniej danych w pobliżu trybu po prawej stronie, nie zawsze pojawią się one ponownie w próbce ładowania początkowego. Ale to także kluczowy punkt.
Należy zauważyć, że punkt 3. powyżej pozostaje nietknięty. Ale wyniki są gdzieś pomiędzy unimodal i bimodal.
Dla zainteresowanych jest to kod:
źródło
LP Nonparametric Mode Identification (nazwa algorytmu LPMode , odnośnik do artykułu podano poniżej)
Tryby MaxEnt [trójkąty w kolorze czerwonym na wykresie]: 12783.36 i 24654.28.
Tryby L2 [zielone trójkąty na wykresie]: 13054,70 i 24111,61.
Interesujące jest zwrócenie uwagi na kształty modalne, zwłaszcza ten drugi, który wykazuje znaczną skośność (tradycyjny model mieszanki gaussowskiej prawdopodobnie tutaj zawodzi).
Mukhopadhyay, S. (2016) Identyfikacja w trybie wielkoskalowym i nauki oparte na danych. https://arxiv.org/abs/1509.06428
źródło