Cytując z artykułu z Wikipedii na temat szacowania parametrów naiwnego klasyfikatora Bayesa : „typowym założeniem jest to, że ciągłe wartości związane z każdą klasą są rozkładane zgodnie z rozkładem Gaussa”.
Rozumiem, że rozkład Gaussa jest dogodny ze względów analitycznych. Czy istnieje jednak jakiś inny powód, aby przyjąć takie przypuszczenie? Co jeśli populacja składa się z dwóch subpopulacji (inteligentni / głupi ludzie, duże / małe jabłka)?
normal-distribution
lmsasu
źródło
źródło
Odpowiedzi:
Przynajmniej dla mnie założenie o normalności wynika z dwóch (bardzo potężnych) powodów:
Twierdzenie o granicy centralnej.
Rozkład Gaussa jest rozkładem maksymalnej entropii (w odniesieniu do ciągłej wersji entropii Shannona).
Myślę, że zdajesz sobie sprawę z pierwszego punktu: jeśli twoja próbka jest sumą wielu procesów, to dopóki spełnione są pewne łagodne warunki, rozkład jest prawie gaussowski (istnieją uogólnienia CLT, w których tak naprawdę nie należy założyć, że wartości RV sumy są identycznie rozłożone, patrz np. CLT Lyapunova).
Drugi punkt to taki, który dla niektórych osób (szczególnie fizyków) ma większy sens: biorąc pod uwagę pierwszy i drugi moment rozkładu, rozkład, który zakłada mniej informacji (tj. Najbardziej konserwatywny) w odniesieniu do ciągłej miary entropii Shannona (która jest nieco arbitralne w przypadku ciągłym, ale, przynajmniej dla mnie, całkowicie obiektywne w przypadku dyskretnym, ale to inna historia), rozkład Gaussa. Jest to forma tak zwanej „zasady maksymalnej entropii”, która nie jest tak rozpowszechniona, ponieważ faktyczne użycie formy entropii jest nieco arbitralne ( więcej informacji na temat tego środka można znaleźć w tym artykule w Wikipedii ).
Oczywiście to ostatnie stwierdzenie jest prawdziwe również w przypadku wielowymiarowym, tzn. Maksymalny rozkład entropii (ponownie, w odniesieniu do ciągłej wersji entropii Shannona) podany jako pierwszy ( ) i informacje drugiego rzędu ( tj. macierz kowariancji ), można wykazać jako zmienną gaussowską na wielu odmianach. Σμ⃗ Σ
PD: Muszę dodać do zasady maksymalnej entropii, że zgodnie z tym artykułem , jeśli zdarzy ci się znać zakres zmienności swojej zmiennej, musisz dokonać korekty rozkładu, który otrzymujesz zgodnie z zasadą maksymalnej entropii.
źródło
Moja odpowiedź zgadza się z pierwszym respondentem. Twierdzenie o limicie centralnym mówi ci, że jeśli twoja statystyka jest sumą lub średnią, będzie w przybliżeniu normalna w pewnych warunkach technicznych, niezależnie od rozkładu poszczególnych próbek. Ale masz rację, że czasami ludzie przenoszą to za daleko tylko dlatego, że wydaje się to wygodne. Jeśli twoja statystyka jest współczynnikiem, a mianownik może wynosić zero lub być blisko tego, stosunek będzie zbyt ciężki dla normy. Gosset odkrył, że nawet jeśli próbkujesz z rozkładu normalnego, znormalizowaną średnią, gdy do stałej normalizacyjnej stosuje się standardowe odchylenie próbki, rozkład jest rozkładem t z n-1 stopniami swobody, gdy n jest rozmiarem próbki. W swoich eksperymentach terenowych w browarze Guiness ma próbki o wielkości od 5 do 10. W tych przypadkach rozkład t jest podobny do standardowego rozkładu normalnego, ponieważ jest symetryczny względem 0, ale ma znacznie cięższe ogony. Zauważ, że rozkład t zbiega się ze standardową normą, gdy n staje się duże. W wielu przypadkach rozmieszczenie może być bimodalne, ponieważ jest to mieszanina dwóch populacji. Czasami te rozkłady mogą być dopasowane jako mieszanina rozkładów normalnych. Ale na pewno nie wyglądają jak normalny rozkład. Jeśli spojrzysz na podstawowy podręcznik statystyki, znajdziesz wiele parametrycznych ciągłych i dyskretnych rozkładów, które często rodzą problemy wnioskowania. Dla danych dyskretnych mamy dwumianowy, Poissona, geometryczny, hipergeometryczny i ujemny dwumianowy, żeby wymienić tylko kilka. Ciągłe przykłady obejmują kwadrat chi, logarytm normalny, Cauchy'ego, wykładniczy ujemny, Weibulla i Gumbela.
źródło
Zastosowanie CLT do uzasadnienia zastosowania rozkładu Gaussa jest powszechnym błędem, ponieważ CLT stosuje się do średniej próbki, a nie do indywidualnych obserwacji. Dlatego zwiększenie wielkości próbki nie oznacza, że próbka jest bliższa normalności.
Rozkład Gaussa jest powszechnie stosowany, ponieważ:
Oczywiście najlepszą opcją jest użycie dystrybucji uwzględniającej cechy twojego kontekstu, ale może to być trudne. Jednak ludzie powinni to robić
„Wszystko powinno być tak proste, jak to możliwe, ale nie prostsze”. (Albert Einstein)
Mam nadzieję, że to pomoże.
Wszystkiego najlepszego.
źródło