Graniczy to z filozoficznym pytaniem, ale interesuje mnie, jak inni z większym doświadczeniem myślą o wyborze dystrybucji. W niektórych przypadkach wydaje się jasne, że teoria może działać najlepiej (długość ogona myszy jest prawdopodobnie zwykle rozkładana). W wielu przypadkach prawdopodobnie nie ma teorii do opisania zestawu danych, więc po prostu używasz czegoś, co pasuje dość dobrze do tego, co masz dość, niezależnie od tego, co pierwotnie opracowano, aby to opisać? Mogę sobie wyobrazić niektóre pułapki związane z jedną lub drugą z nich, i wtedy wydaje się, że istnieje problem, że może powinieneś po prostu użyć rozkładu empirycznego, jeśli naprawdę nie masz pojęcia.
Myślę, że tak naprawdę pytam: czy ktoś ma spójny sposób podejścia / myślenia o tym problemie? Czy są jakieś zasoby, które możesz zasugerować, aby dać temu radę?
źródło
Odpowiedzi:
Zdecydowanie zależy od danych, o których mowa, i od tego, ile się o nich wie lub co chce założyć. Jak niedawno powiedział @whuber na czacie: „W przypadku prawa fizyki prawie zawsze można zgadywać, co do odpowiedniego sposobu modelowania danych”. (Podejrzewam, że jest to bardziej odpowiednie dla niego niż dla mnie! Mam również nadzieję, że nie jest to niewłaściwie zastosowane w jego oryginalnym kontekście ...) W przypadkach bardziej przypominających ukryte modelowanie konstrukcji w naukach społecznych, często warto skupić się na rozkłady empiryczne jako sposób zrozumienia niuansów mniej znanych zjawisk. Nieco łatwo jest założyć normalną dystrybucję i odrzucić niedopasowanie w ogólnym kształcie jako nieistotne, a dość sprytnie jest odrzucić wartości odstające jako błędne bez większego uzasadnienia niż to, że nie „
Oczywiście znaczna część tego zachowania jest motywowana założeniami analiz, które chce się zastosować. Często najciekawsze pytania wykraczają daleko poza opis lub klasyfikację rozkładów zmiennych. Wpływa to również na właściwą odpowiedź dla danego scenariusza; mogą istnieć powody (np. zapotrzebowanie na moc ), aby założyć normalny rozkład, gdy nie pasuje on szczególnie dobrze (ani źle dopasowuje), ponieważ metody nieparametryczne i w inny sposób solidne również nie są idealne. Niemniej jednak, ryzyko takiego postępowania zwykle polega na tym, że zapomina się zadać interesujące pytania dotyczące rozkładu jednej zmiennej.
Rozważmy na przykład związek między bogactwem a szczęściem: popularne pytanie, które ludzie zazwyczaj chcą zadawać. Można założyć, że bogactwo jest zgodne z rozkładem gamma (Salem i Mount, 1974) lub uogólnioną wersją beta (Parker, 1999) , ale czy naprawdę można bezpiecznie założyć, że szczęście jest zwykle rozdzielane? Naprawdę, nie powinno być wcale konieczne zakładanie tego, aby odpowiedzieć na pierwotne pytanie, ale ludzie czasem tak robią, a następnie ignorują potencjalnie ważne kwestie, takie jak stronniczość odpowiedzi i różnice kulturowe. Na przykład niektóre kultury zwykle udzielają mniej lub bardziej skrajnych odpowiedzi (patrz odpowiedź @ chl na temat analizy czynnikowej kwestionariuszy złożonych z elementów Likerta ), a normy różnią się w odniesieniu do otwartej ekspresji pozytywnych i negatywnych emocji (Tucker, Ozer, Lyubomirsky i Boehm, 2006 ) . Może to zwiększyć znaczenie różnic w empirycznych cechach dystrybucyjnych, takich jak skośność i kurtoza. Gdybym porównywał stosunek bogactwa do subiektywnych ocen szczęścia w Rosji, Chinach i Stanach Zjednoczonych, prawdopodobnie chciałbym ocenić różnice w głównych tendencjach ocen szczęścia. Czyniąc to, wahałbym się przyjąć normalne rozkłady dla każdej z nich dla jednokierunkowej ANOVA (nawet jeśli może to być dość odporne na naruszenia), gdy istnieje powód, by spodziewać się „grubszej” dystrybucji w Chinach, dodatniej dystrybucji w Rosji i negatywnej dystrybucji w USA z powodu różnych zależnych od kultury norm i tendencyjności w odpowiedzi. Ze względu na test istotności (chociaż szczerze mówiąc wolałbym po prostu raportować wielkości efektów), wolałbym zastosować metodę nieparametryczną, a dla rzeczywistego zrozumienia subiektywnego szczęścia w każdej populacji osobno, raczej opisz rozkład empirycznie, niż spróbuj sklasyfikować go jako prostą teoretyczną dystrybucję i zignoruj lub pomaluj wszelkie niedopasowanie. To marnowanie informacji IMO.
Referencje
- Parker, SC (1999). Uogólniona wersja beta jako model podziału zarobków. Economics Letters, 62 (2), 197–200.
- Salem, ABZ i Mount, TD (1974). Wygodny opisowy model podziału dochodu: gęstość gamma. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S., i Boehm, JK (2006). Testowanie niezmienności pomiaru w zadowoleniu ze skali życia: Porównanie Rosjan i Amerykanów z Ameryki Północnej. Badania wskaźników społecznych, 78 (2), 341–360. Źródło: http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
źródło
Wątpiłbym w to. Normalne rozkłady wynikają z wielu niezależnych efektów addytywnych. Systemy biologiczne składają się z wielu interaktywnych pętli sprzężenia zwrotnego (wzajemnie zależne efekty multiplikacyjne). Często są też niektóre stany, które są bardziej stabilne niż inne (np. Atraktory). Więc jakiś rozkład długodystansowy lub multimodalny prawdopodobnie opisałby długość ogona. W rzeczywistości rozkład normalny jest prawdopodobnie bardzo słabym domyślnym wyborem do opisania czegokolwiek biologicznego, a jego niewłaściwe użycie jest odpowiedzialne za wiele „wartości odstających” zgłoszonych w tej literaturze. Występowanie tego rozmieszczenia w przyrodzie jest mitem, a nie tylko w sensie „idealnych kręgów tak naprawdę nie istnieje”. Jednak nie wynika z tego, że średnia i sd są bezużyteczne jako statystyki podsumowujące.
Dopasowanie rozkładów empirycznych dostarcza wskazówek na temat leżącego u podstaw procesu, który ułatwia rozwój rozkładów teoretycznych. Następnie rozkład teoretyczny porównuje się z rozkładami empirycznymi w celu przetestowania dowodów dla teorii.
Jeśli twoim celem jest ocena prawdopodobieństwa pewnych wyników na podstawie dostępnych obecnie dowodów i nie masz powodu, aby wybrać ten konkretny rozkład, myślę, że nie rozumiem, w jaki sposób przyjęcie dodatkowych założeń mogłoby być pomocne. Zamiast tego wydaje się, że myli sprawy.
Jeśli jednak próbujesz opisać lub podsumować dane, warto dopasować rozkład.
źródło
Długości ogonów z pewnością nie są zwykle rozkładane.
Rozkłady normalne mają niezerowe prawdopodobieństwo przyjęcia wartości ujemnych; długości ogona nie.
Słynna wypowiedź George'a Boxa: „ wszystkie modele są złe, ale niektóre są użyteczne ” czyni tę kwestię całkiem dobrą. Przypadki, w których moglibyśmy zasadnie twierdzić o normalności (a nie tylko o przybliżonej normalności), są naprawdę bardzo rzadkie, prawie legendarne stworzenia, złudzenia czasami prawie dostrzegane kątem oka.
W przypadkach, w których ilości, które Cię interesują, nie są szczególnie wrażliwe na wybór (o ile szerokie funkcje dystrybucji są zgodne z tym, co wiadomo), to tak, możesz po prostu użyć czegoś, co dobrze pasuje.
W przypadkach, w których występuje wyższy stopień wrażliwości, samo „użycie czegoś, co pasuje” nie jest wystarczające. Możemy zastosować pewne podejście, które nie przyjmuje szczególnych założeń (być może procedury wolne od dystrybucji, takie jak permutacja, ładowanie początkowe lub inne metody ponownego próbkowania lub solidne procedury). Alternatywnie moglibyśmy określić wrażliwość na założenie dystrybucyjne, na przykład poprzez symulację (rzeczywiście myślę, że jest to ogólnie dobry pomysł).
Nie opisałbym tego jako problemu - opieranie wnioskowania na rozkładach empirycznych z pewnością uzasadnione podejście odpowiednie dla wielu rodzajów problemów (permutacja / randomizacja i bootstrapowanie to dwa przykłady).
ogólnie rzecz biorąc, w wielu przypadkach staram się rozważać pytania takie jak:
1) Co rozumiem * o tym, jak zachowują się środki (lub inne wielkości typu lokalizacji) dla danych tego formularza?
* (czy to z teorii, czy z doświadczenia z tą formą danych, z porad ekspertów lub, jeśli to konieczne, z samych danych, chociaż wiąże się to z problemami, z którymi trzeba sobie poradzić)
2) Co z spreadem (wariancja, IQR itp.) - jak się zachowuje?
3) Co z innymi funkcjami dystrybucji (granice, skośność, dyskrecja itp.)
4) A co z zależnością, niejednorodnością populacji, tendencją do czasami bardzo różnych wartości itp
Ten rodzaj rozważań może pomóc w wyborze między normalnym modelem, GLM, innym modelem lub pewnym solidnym lub wolnym od dystrybucji podejściem (takim jak ładowanie początkowe lub metody permutacji / randomizacji, w tym procedury oparte na rankingu)
źródło