Mam przede wszystkim wykształcenie informatyczne, ale teraz próbuję nauczyć się podstawowych statystyk. Mam pewne dane, które moim zdaniem mają rozkład Poissona
Mam dwa pytania:
- Czy to rozkład Poissona?
- Po drugie, czy można przekształcić to w rozkład normalny?
Każda pomoc będzie mile widziana. Dzięki wielkie
Odpowiedzi:
1) Przedstawione wydają się (pogrupowane) ciągłe dane narysowane jako wykres słupkowy.
Można dość bezpiecznie stwierdzić, że jest nie rozkładem Poissona.
Zmienna losowa Poissona przyjmuje wartości 0, 1, 2, ... i ma najwyższy pik przy 0 tylko wtedy, gdy średnia jest mniejsza niż 1. Jest używana do danych zliczania; jeśli narysujesz podobny wykres danych Poissona, może on wyglądać jak na poniższych wykresach:
Pierwszy to Poisson, który wykazuje podobną skośność do twojej. Widać, że jego średnia jest dość mała (około 0,6).
Drugi to Poissona, który oznacza podobny (w bardzo szorstkim przypuszczeniu) do twojego. Jak widać, wygląda całkiem symetrycznie.
Możesz mieć skośność lub dużą średnią, ale nie oba jednocześnie.
2) (i) Nie można ustawić normalnych danych dyskretnych -
Dzięki zgrupowanym danym, za pomocą dowolnej transformacji monotonicznej, przeniesiesz wszystkie wartości w grupie w to samo miejsce, więc najniższa grupa nadal będzie miała najwyższy szczyt - patrz wykres poniżej. W pierwszym wykresie przesuwamy pozycje wartości x, aby ściśle pasowały do normalnego cdf:
Na drugim wykresie widzimy funkcję prawdopodobieństwa po transformacji. Naprawdę nie możemy osiągnąć czegoś takiego jak normalność, ponieważ jest ona zarówno dyskretna, jak i pochylona; duży skok pierwszej grupy pozostanie dużym skokiem, bez względu na to, czy popchniesz go w lewo czy w prawo.
(ii) Ciągłe wypaczone dane mogą zostać przekształcone, aby wyglądać na względnie normalne. Jeśli masz surowe (niepogrupowane) wartości i nie są one zbyt dyskretne, możesz coś zrobić, ale nawet wtedy, gdy ludzie próbują przekształcić swoje dane, jest to albo niepotrzebne, albo ich podstawowy problem można rozwiązać w inny (ogólnie lepszy) sposób . Czasami transformacja jest dobrym wyborem, ale zwykle odbywa się z niezbyt dobrych powodów.
Więc ... dlaczego chcesz to przekształcić?
źródło
Publikowanie ciekawszych informacji dla potomnych.
Istnieje starszy post, który omawia podobny problem dotyczący wykorzystania danych zliczania jako niezależnej zmiennej dla regresji logistycznych.
Oto on:
Czy używanie danych zliczania jako zmiennej niezależnej narusza którekolwiek z założeń GLM?
Jak wspomniał Glen, jeśli po prostu próbujesz przewidzieć dychotomiczny wynik, możliwe, że będziesz w stanie wykorzystać nieprzetworzone dane zliczania jako bezpośredni składnik modelu regresji logistycznej. Jednak uwaga: gdy zmienna niezależna (IV) jest zarówno rozkładem Poissona ORAZ rozciąga się na wiele rzędów wielkości przy użyciu surowych wartości, może to spowodować bardzo wpływowe punkty, co z kolei może wpływać na twój model. W takim przypadku przydatne może być wykonanie transformacji do IV do uzyskania bardziej niezawodnego modelu.
Transformacje, takie jak pierwiastek kwadratowy lub log, mogą zwiększyć zależność między IV a ilorazem szans. Na przykład, jeśli zmiany X o trzy całe rzędy wielkości (od mediany wartości X) odpowiadały zaledwie 0,1 zmianom prawdopodobieństwa wystąpienia Y (od 0,5), to całkiem bezpiecznie założyć, że jakiekolwiek rozbieżności modelu prowadzić do znacznego uprzedzenia ze względu na ekstremalną dźwignię wynikającą z wartości odstających X.
Aby to zilustrować, wyobraźmy sobie, że chcieliśmy użyć oceny Scoville różnych papryczek chili (domena [X] = {0, 3,2 miliona}), aby przewidzieć prawdopodobieństwo, że dana osoba sklasyfikuje pieprz jako „niewygodnie pikantny” (zakres [Y] = {1 = tak, 0 = nie}) po zjedzeniu pieprzu o odpowiedniej ocenie X.
https://en.wikipedia.org/wiki/Scoville_scale
Jeśli spojrzysz na tabelę ocen Scoville, zobaczysz, że transformacja logiczna surowych ocen Scoville dałaby ci przybliżenie do subiektywnych (1-10) ocen każdego chili.
Tak więc w tym przypadku, gdybyśmy chcieli stworzyć bardziej solidny model, który wychwytuje prawdziwą zależność między surowymi ocenami Scoville'a a subiektywną oceną ciepła, moglibyśmy przeprowadzić logarytmiczną transformację wartości X. W ten sposób zmniejszamy wpływ nadmiernie dużej domeny X, skutecznie „zmniejszając” odległość między wartościami różniącymi się o rzędy wielkości, aw konsekwencji zmniejszając wagę wszelkich wartości odstających X (np. Tych nietolerancyjnych kapsaicyny i / lub szalonych przypraw! !!) mieć nasze prognozy.
Mam nadzieję, że to dodaje zabawnego kontekstu!
źródło