Przykłady typowych rozkładów z życia

28

Jestem studentem, który interesuje się statystykami. Materiał bardzo mi się podoba, ale czasami trudno mi myśleć o zastosowaniach w prawdziwym życiu. W szczególności moje pytanie dotyczy najczęściej używanych rozkładów statystycznych (normalnych - beta-gamma itp.). Wydaje mi się, że w niektórych przypadkach uzyskuję określone właściwości, które sprawiają, że rozkład jest całkiem ładny - na przykład bez pamięci właściwość wykładnicza. Ale w wielu innych przypadkach nie mam intuicji na temat zarówno znaczenia, jak i obszarów zastosowania wspólnych dystrybucji, które widzimy w podręcznikach.

Prawdopodobnie istnieje wiele dobrych źródeł odnoszących się do moich obaw, chętnie bym się nimi podzielił. Byłbym znacznie bardziej zmotywowany do tego materiału, gdybym mógł powiązać go z przykładami z życia.

Ryk
źródło
8
Czternaście rodzajów aplikacji obejmujących szeroki zakres dystrybucji opisano w „aplikacjach” na stronie pomocy dla funkcji Mathematica EstimatedDistribution .
whuber

Odpowiedzi:

23

Wikipedia ma stronę z listą wielu rozkładów prawdopodobieństwa z linkami do bardziej szczegółowych informacji o każdej dystrybucji. Możesz przeglądać listę i podążać za linkami, aby lepiej poznać rodzaje aplikacji, w których zwykle używane są różne dystrybucje.

Pamiętaj tylko, że te rozkłady są używane do modelowania rzeczywistości i jak powiedział Box: „wszystkie modele są złe, niektóre modele są przydatne”.

Oto niektóre z typowych dystrybucji i niektóre z powodów, dla których są one przydatne:

Normalny: Przydaje się to do patrzenia na średnie i inne kombinacje liniowe (np. Współczynniki regresji) z powodu CLT. Związane jest to z tym, że jeśli wiadomo, że powstaje coś z powodu addytywnego działania wielu różnych małych przyczyn, wówczas normalna może być rozsądnym rozkładem: na przykład wiele biologicznych miar jest wynikiem wielu genów i wielu czynników środowiskowych, a zatem często są w przybliżeniu normalne .

Gamma: Odpowiednio wypaczona i przydatna w przypadku rzeczy o naturalnym minimum 0. Powszechnie stosowana w przypadku upływu czasu i niektórych zmiennych finansowych.

Wykładniczy: szczególny przypadek gamma. Jest bez pamięci i łatwo się skaluje.

Chi-kwadrat ( ): specjalny przypadek gammy. Powstają jako suma kwadratowych zmiennych normalnych (tak używanych dla wariancji).χ2)

Beta: Zdefiniowana między 0 a 1 (ale może być przekształcona tak, aby zawierała inne wartości), przydatna w przypadku proporcji lub innych wielkości, które muszą zawierać się w przedziale od 0 do 1.

Dwumianowy: Ile „sukcesów” z danej liczby niezależnych prób z takim samym prawdopodobieństwem „sukcesu”.

Poisson: wspólny dla zliczeń. Ładne właściwości, że jeśli liczba zdarzeń w danym okresie lub obszarze jest zgodna z Poissonem, to liczba w dwukrotności czasu lub obszaru nadal odpowiada Poissonowi (z dwukrotnością średniej): działa to na dodanie Poissons lub skalowanie z wartościami innymi niż 2)

Należy zauważyć, że jeśli zdarzenia występują w czasie, a czas między wystąpieniami następuje wykładniczo, to liczba występująca w danym okresie następuje po Poissonie.

Ujemny dwumianowy: Liczy się z minimum 0 (lub inną wartością w zależności od wersji) i bez górnej granicy. Koncepcyjnie jest to liczba „awarii” przed k „sukcesami”. Ujemny dwumian jest także mieszaniną zmiennych Poissona, których średnie pochodzą z rozkładu gamma.

Geometryczny: szczególny przypadek dla ujemnego dwumianu, w którym jest to liczba „awarii” przed pierwszym „sukcesem”. Jeśli obetniesz (zaokrąglisz w dół) zmienną wykładniczą, aby była dyskretna, wynik będzie geometryczny.

Greg Snow
źródło
3
Cóż, dziękuję za odpowiedź. Jednak wikipedia zawiera bardziej ogólny opis, który chciałbym. Zasadniczo moje pytanie brzmi: dlaczego niektóre dystrybucje są ładne? Aby dać możliwą odpowiedź w przypadku rozkładu normalnego, może być związane z centralnym ograniczonym twierdzeniem - które mówi, że jeśli spróbujesz nieskończonej ilości obserwacji, w rzeczywistości możesz w asympotyce zobaczyć, że wystarczająca statystyka tych obserwacji, przy danej niezależności, ma rozkład normalny . Szukam więcej takich przykładów ...
Roark,
Nie do końca prawdziwa dystrybucja, ale co z bimodalem? Nie mogę wymyślić żadnych powszechnie spotykanych przykładów z życia po tym, jak odkryłem, że wiele różnic płciowych u ludzi nie jest bimodalnych.
kot sufitowy
Dodaj wielomian
3

Teoria asymptotyczna prowadzi do rozkładu normalnego, skrajnych typów wartości, praw stabilnych i Poissona. Wykładniczy i Weibull mają tendencję do pojawiania się jako parametryczny czas do rozkładu zdarzeń. W przypadku Weibulla jest to ekstremalny typ wartości dla minimum próbki. Związane z modelami parametrycznymi dla normalnie rozłożonych obserwacji, rozkłady chi kwadrat, ti F powstają w testach hipotez i estymacji przedziału ufności. Chi kwadrat pojawia się również w analizie tabeli kontyngencji i testach dobroci dopasowania. Do badania mocy testów mamy niecentralne rozkłady ti F. Rozkład hipergeometryczny powstaje w dokładnym teście Fishera dla tabel awaryjnych. Rozkład dwumianowy jest ważny podczas przeprowadzania eksperymentów w celu oszacowania proporcji. Ujemny dwumian jest ważnym rozkładem do naddyspersji modelu w procesie punktowym. To powinno dać ci dobry start w praktycznych rozproszeniach parametrycznych. W przypadku nieujemnych zmiennych losowych na (0, ∞) rozkład gamma jest elastyczny, zapewniając różne kształty, a logarytm normalny jest również powszechnie stosowany. W [0,1] rodzina beta zapewnia rozkład symetryczny, w tym jednolity, a także rozkłady pochylone w lewo lub pochylone w prawo.

Powinienem również wspomnieć, że jeśli chcesz poznać wszystkie drobiazgowe szczegóły dotyczące rozkładów w statystykach, istnieje klasyczna seria książek Johnsona i Kotza, które obejmują rozkłady dyskretne, ciągłe rozkłady jednowymiarowe i ciągłe rozkłady wielowymiarowe, a także tom 1 teorii zaawansowanej statystyk Kendalla i Stuarta.

Michael R. Chernick
źródło
Bardzo dziękuję za odpowiedź, jest to niezwykle przydatne. Jeszcze raz dziękuję, naprawdę mi pomogło.
Roark,
2

Kup i przeczytaj przynajmniej pierwsze 6 rozdziałów (pierwsze 218 stron) Williama J. Fellera „Wprowadzenie do teorii prawdopodobieństwa i jej zastosowania, tom 2” http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Przynajmniej przeczytaj wszystkie problemy do rozwiązania, a najlepiej spróbuj rozwiązać jak najwięcej. Nie musisz czytać tomu 1, który moim zdaniem nie jest szczególnie chwalebny.

Pomimo tego, że autor zmarł 45 1/2 lat temu, zanim jeszcze książka została ukończona, jest to po prostu najlepsza książka, bez żadnych ograniczeń, do rozwijania intuicji w procesach prawdopodobieństwa i stochastycznych oraz zrozumienia i rozwijania wyczucia różnych dystrybucji , w jaki sposób odnoszą się one do zjawisk świata rzeczywistego i różnych zjawisk stochastycznych, które mogą i mają miejsce. Dzięki solidnemu fundamentowi, który z niego zbudujesz, będziesz dobrze obsługiwany w statystykach.

Jeśli uda ci się przejść przez kolejne rozdziały, co staje się nieco trudniejsze, będziesz o lata świetlne przed prawie wszystkimi. Mówiąc prosto, jeśli znasz Feller Vol 2, znasz prawdopodobieństwo (i procesy stochastyczne); co oznacza, że ​​wszystko, czego nie wiesz, na przykład nowe osiągnięcia, będziesz w stanie szybko podnieść i opanować, budując na tym solidnym fundamencie.

Prawie wszystko, co poprzednio wspomniano w tym wątku, znajduje się w Feller Vol 2 (nie cały materiał w Kendall Advanced Theory of Statistics, ale czytanie tej książki będzie bułką z masłem po Feller Vol 2) i jeszcze więcej w sposób, który powinien rozwinąć twoje stochastyczne myślenie i intuicję. Johnson i Kotz dobrze nadają się do drobiazgów na temat różnych rozkładów prawdopodobieństwa, Feller Vol 2 jest przydatny do nauki, jak myśleć probabilistycznie, i wiedzieć, co wyciągać z Johnsona i Kotza i jak z tego korzystać.

Mark L. Stone
źródło
2

Aby dodać do innych doskonałych odpowiedzi.

npλ=nppozostaje stały, ograniczony od zera i nieskończoności. To mówi nam, że jest to przydatne, gdy mamy dużą liczbę indywidualnie bardzo nieprawdopodobnych zdarzeń. Dobrymi przykładami są: wypadki, takie jak liczba wypadków samochodowych w Nowym Jorku w ciągu dnia, ponieważ za każdym razem, gdy dwa samochody mijają / spotykają się, prawdopodobieństwo wypadku jest bardzo niskie, a liczba takich możliwości jest rzeczywiście astronomiczna! Teraz możesz pomyśleć o innych przykładach, takich jak całkowita liczba wypadków lotniczych na świecie w ciągu roku. Klasyczny przykład, w którym liczba zgonów przez horsekicków w kawalerii preussian!

np(1-p)p1-pnpλpp

kjetil b halvorsen
źródło
0

Niedawno opublikowane badaniasugeruje, że działanie człowieka NIE jest normalnie rozkładane, wbrew powszechnej opinii. Przeanalizowano dane z czterech dziedzin: (1) Nauczyciele akademiccy w 50 dyscyplinach, w oparciu o częstotliwość publikacji w najważniejszych czasopismach branżowych. (2) Artyści estradowi, tacy jak aktorzy, muzycy i pisarze, a także liczba otrzymanych prestiżowych nagród, nominacji lub wyróżnień. (3) Politycy w 10 krajach i wyniki wyborów / reelekcji. (4) Kolegiaci i zawodowi sportowcy poszukujący najbardziej zindywidualizowanych dostępnych wskaźników, takich jak liczba biegów do domu, przyjęć w sportach zespołowych i łączna wygrana w sporcie indywidualnym. Autor pisze: „Widzieliśmy wyraźny i spójny rozkład prawa władzy w każdym badaniu, niezależnie od tego, jak wąsko lub szeroko analizowaliśmy dane ...”

Joel W.
źródło
4
Kto zasugerował, że ludzka wydajność jest zwykle dystrybuowana ?! Zasada 80-20 została zasugerowana przez Pareto (1906!).
abaumann