Konwertuj rozkład Poissona na rozkład normalny

10

Mam przede wszystkim wykształcenie informatyczne, ale teraz próbuję nauczyć się podstawowych statystyk. Mam pewne dane, które moim zdaniem mają rozkład Poissona

wprowadź opis zdjęcia tutaj

Mam dwa pytania:

  1. Czy to rozkład Poissona?
  2. Po drugie, czy można przekształcić to w rozkład normalny?

Każda pomoc będzie mile widziana. Dzięki wielkie

Abhi
źródło
3
1. Nie, rozkład Poissona generalnie ma tryb w pobliżu swojego parametru, więc dopasowanie go do rozkładu Poissona oznaczałoby bardzo małą wartość parametru. 2. Tak i nie. Co chcesz zrobić z normalną dystrybucją?
Dilip Sarwate
Próbuję wprowadzić te dane do regresji logistycznej. Doprowadzono mnie do przekonania, że ​​normalnie dystrybuowane dane dają znacznie lepsze wyniki
Abhi

Odpowiedzi:

11

1) Przedstawione wydają się (pogrupowane) ciągłe dane narysowane jako wykres słupkowy.

Można dość bezpiecznie stwierdzić, że jest nie rozkładem Poissona.

Zmienna losowa Poissona przyjmuje wartości 0, 1, 2, ... i ma najwyższy pik przy 0 tylko wtedy, gdy średnia jest mniejsza niż 1. Jest używana do danych zliczania; jeśli narysujesz podobny wykres danych Poissona, może on wyglądać jak na poniższych wykresach:

wprowadź opis zdjęcia tutaj

Pierwszy to Poisson, który wykazuje podobną skośność do twojej. Widać, że jego średnia jest dość mała (około 0,6).

Drugi to Poissona, który oznacza podobny (w bardzo szorstkim przypuszczeniu) do twojego. Jak widać, wygląda całkiem symetrycznie.

Możesz mieć skośność lub dużą średnią, ale nie oba jednocześnie.

2) (i) Nie można ustawić normalnych danych dyskretnych -

Dzięki zgrupowanym danym, za pomocą dowolnej transformacji monotonicznej, przeniesiesz wszystkie wartości w grupie w to samo miejsce, więc najniższa grupa nadal będzie miała najwyższy szczyt - patrz wykres poniżej. W pierwszym wykresie przesuwamy pozycje wartości x, aby ściśle pasowały do ​​normalnego cdf:

wprowadź opis zdjęcia tutaj

Na drugim wykresie widzimy funkcję prawdopodobieństwa po transformacji. Naprawdę nie możemy osiągnąć czegoś takiego jak normalność, ponieważ jest ona zarówno dyskretna, jak i pochylona; duży skok pierwszej grupy pozostanie dużym skokiem, bez względu na to, czy popchniesz go w lewo czy w prawo.

(ii) Ciągłe wypaczone dane mogą zostać przekształcone, aby wyglądać na względnie normalne. Jeśli masz surowe (niepogrupowane) wartości i nie są one zbyt dyskretne, możesz coś zrobić, ale nawet wtedy, gdy ludzie próbują przekształcić swoje dane, jest to albo niepotrzebne, albo ich podstawowy problem można rozwiązać w inny (ogólnie lepszy) sposób . Czasami transformacja jest dobrym wyborem, ale zwykle odbywa się z niezbyt dobrych powodów.

Więc ... dlaczego chcesz to przekształcić?

Glen_b - Przywróć Monikę
źródło
Dziękuję Glen za bardzo szczegółową odpowiedź. Wyjaśnia wiele pojęć. Próbuję wprowadzić te dane do modelu regresji logistycznej. Pomyślałem (teraz nie jestem tego pewien), że normalnie dystrybuowane dane dają znacznie lepsze wyniki. Co polecasz?
Abhi
1
To jest zmienna niezależna (zmienna )? Co rozumiesz przez „lepsze wyniki” w tym kontekście? x
Glen_b
@Glen_b Bardzo dziękuję za wspaniałą odpowiedź. Pochodzę także z informatyki i utknąłem w tym pytaniu: stats.stackexchange.com/questions/408232/... Proszę o podzielenie się swoimi przemyśleniami na ten temat. Czekam na wiadomość od ciebie.
Jeszcze
Nie używaj komentarzy, aby rekrutować ludzi do odpowiedzi na twoje pytania. Widziałem już twoje pytanie.
Glen_b
0

Publikowanie ciekawszych informacji dla potomnych.

Istnieje starszy post, który omawia podobny problem dotyczący wykorzystania danych zliczania jako niezależnej zmiennej dla regresji logistycznych.

Oto on:

Czy używanie danych zliczania jako zmiennej niezależnej narusza którekolwiek z założeń GLM?

Jak wspomniał Glen, jeśli po prostu próbujesz przewidzieć dychotomiczny wynik, możliwe, że będziesz w stanie wykorzystać nieprzetworzone dane zliczania jako bezpośredni składnik modelu regresji logistycznej. Jednak uwaga: gdy zmienna niezależna (IV) jest zarówno rozkładem Poissona ORAZ rozciąga się na wiele rzędów wielkości przy użyciu surowych wartości, może to spowodować bardzo wpływowe punkty, co z kolei może wpływać na twój model. W takim przypadku przydatne może być wykonanie transformacji do IV do uzyskania bardziej niezawodnego modelu.

Transformacje, takie jak pierwiastek kwadratowy lub log, mogą zwiększyć zależność między IV a ilorazem szans. Na przykład, jeśli zmiany X o trzy całe rzędy wielkości (od mediany wartości X) odpowiadały zaledwie 0,1 zmianom prawdopodobieństwa wystąpienia Y (od 0,5), to całkiem bezpiecznie założyć, że jakiekolwiek rozbieżności modelu prowadzić do znacznego uprzedzenia ze względu na ekstremalną dźwignię wynikającą z wartości odstających X.

Aby to zilustrować, wyobraźmy sobie, że chcieliśmy użyć oceny Scoville różnych papryczek chili (domena [X] = {0, 3,2 miliona}), aby przewidzieć prawdopodobieństwo, że dana osoba sklasyfikuje pieprz jako „niewygodnie pikantny” (zakres [Y] = {1 = tak, 0 = nie}) po zjedzeniu pieprzu o odpowiedniej ocenie X.

https://en.wikipedia.org/wiki/Scoville_scale

Jeśli spojrzysz na tabelę ocen Scoville, zobaczysz, że transformacja logiczna surowych ocen Scoville dałaby ci przybliżenie do subiektywnych (1-10) ocen każdego chili.

Tak więc w tym przypadku, gdybyśmy chcieli stworzyć bardziej solidny model, który wychwytuje prawdziwą zależność między surowymi ocenami Scoville'a a subiektywną oceną ciepła, moglibyśmy przeprowadzić logarytmiczną transformację wartości X. W ten sposób zmniejszamy wpływ nadmiernie dużej domeny X, skutecznie „zmniejszając” odległość między wartościami różniącymi się o rzędy wielkości, aw konsekwencji zmniejszając wagę wszelkich wartości odstających X (np. Tych nietolerancyjnych kapsaicyny i / lub szalonych przypraw! !!) mieć nasze prognozy.

Mam nadzieję, że to dodaje zabawnego kontekstu!

Ryan Arellano
źródło