Powiedzmy, że masz zestaw wartości i chcesz wiedzieć, czy bardziej prawdopodobne jest, że próbkowano z rozkładu Gaussa (normalnego) lub próbkowano z rozkładu logarytmicznego?
Oczywiście idealnie byłoby wiedzieć coś o populacji lub o źródłach błędów eksperymentalnych, więc mielibyśmy dodatkowe informacje przydatne w odpowiedzi na pytanie. Ale tutaj załóżmy, że mamy tylko zestaw liczb i żadnych innych informacji. Co jest bardziej prawdopodobne: pobieranie próbek z Gaussa lub pobieranie próbek z rozkładu logarytmicznego? O ile bardziej prawdopodobne? Mam nadzieję na algorytm wyboru między dwoma modelami i, mam nadzieję, ilościowe oszacowanie względnego prawdopodobieństwa każdego z nich.
normal-distribution
lognormal
Harvey Motulsky
źródło
źródło
Odpowiedzi:
Można odgadnąć typ rozkładu, dopasowując każdy rozkład (normalny lub logarytmiczny) do danych według maksymalnego prawdopodobieństwa, a następnie porównując prawdopodobieństwo dziennika dla każdego modelu - model o najwyższym prawdopodobieństwie dziennika jest najlepiej dopasowany. Na przykład w R:
Teraz generuj liczby z rozkładu normalnego i dopasuj rozkład normalny do ML:
Produkuje:
Porównaj prawdopodobieństwo dziennika dla dopasowania ML rozkładów normalnych i logarytmicznych:
Spróbuj z lognormalną dystrybucją:
Przypisanie nie będzie idealne, w zależności od n, średniej i sd:
źródło
p(X|\theta)
). Nie przekształcamy danych. Drukujemy rozkład, dla którego prawdopodobieństwo obserwacji danych jest najwyższe. Podejście to jest uzasadnione, ale ma tę wadę, że nie wnioskujemy o prawdopodobieństwie modelu na podstawie danychp(M|X)
, tj. Prawdopodobieństwie, że dane pochodzą z rozkładu normalnego vs lognormalnego (np. P (normalny) = 0,1, p (lognormalny) = 0,9) w przeciwieństwie do podejścia bayesowskiego.Trudną częścią jest uzyskanie marginalnego prawdopodobieństwa ,
Przykład:
Według Murphy'ego (2007) (równanie 203) krańcowe prawdopodobieństwo rozkładu normalnego podaje następnie
Używam tych samych hiperparametrów do rozkładu log-normalnego,
tylny zachowuje się tak:
Linia ciągła pokazuje środkowe prawdopodobieństwo z tyłu dla różnych losowańN
Podczas implementacji równań dobrze byłoby pracować z gęstością logarytmiczną zamiast gęstości. Ale w przeciwnym razie powinno być całkiem prosto. Oto kod, którego użyłem do wygenerowania wykresów:
https://gist.github.com/lucastheis/6094631
źródło
Wygląda na to, że szukasz czegoś dość pragmatycznego, aby pomóc analitykom, którzy prawdopodobnie nie są zawodowymi statystykami i potrzebują czegoś, co zachęci ich do zrobienia czegoś, co powinno być standardowymi technikami eksploracyjnymi, takimi jak wykresy qq, wykresy gęstości itp.
W takim przypadku dlaczego nie po prostu wykonać testu normalności (Shapiro-Wilk lub cokolwiek innego) na oryginalnych danych i jednego na danych przekształconych w dzienniku, a jeśli druga wartość p jest wyższa, podnieś flagę, aby analityk rozważył użycie transformacji dziennika ? Jako bonus wypluj grafikę 2 x 2 wykresu linii gęstości i wykres qqnorm surowych i przetworzonych danych.
To technicznie nie odpowie na twoje pytanie dotyczące względnego prawdopodobieństwa, ale zastanawiam się, czy to wszystko, czego potrzebujesz.
źródło