Jestem studentem, który interesuje się statystykami. Materiał bardzo mi się podoba, ale czasami trudno mi myśleć o zastosowaniach w prawdziwym życiu. W szczególności moje pytanie dotyczy najczęściej używanych rozkładów statystycznych (normalnych - beta-gamma itp.). Wydaje mi się, że w niektórych przypadkach uzyskuję określone właściwości, które sprawiają, że rozkład jest całkiem ładny - na przykład bez pamięci właściwość wykładnicza. Ale w wielu innych przypadkach nie mam intuicji na temat zarówno znaczenia, jak i obszarów zastosowania wspólnych dystrybucji, które widzimy w podręcznikach.
Prawdopodobnie istnieje wiele dobrych źródeł odnoszących się do moich obaw, chętnie bym się nimi podzielił. Byłbym znacznie bardziej zmotywowany do tego materiału, gdybym mógł powiązać go z przykładami z życia.
EstimatedDistribution
.Odpowiedzi:
Wikipedia ma stronę z listą wielu rozkładów prawdopodobieństwa z linkami do bardziej szczegółowych informacji o każdej dystrybucji. Możesz przeglądać listę i podążać za linkami, aby lepiej poznać rodzaje aplikacji, w których zwykle używane są różne dystrybucje.
Pamiętaj tylko, że te rozkłady są używane do modelowania rzeczywistości i jak powiedział Box: „wszystkie modele są złe, niektóre modele są przydatne”.
Oto niektóre z typowych dystrybucji i niektóre z powodów, dla których są one przydatne:
Normalny: Przydaje się to do patrzenia na średnie i inne kombinacje liniowe (np. Współczynniki regresji) z powodu CLT. Związane jest to z tym, że jeśli wiadomo, że powstaje coś z powodu addytywnego działania wielu różnych małych przyczyn, wówczas normalna może być rozsądnym rozkładem: na przykład wiele biologicznych miar jest wynikiem wielu genów i wielu czynników środowiskowych, a zatem często są w przybliżeniu normalne .
Gamma: Odpowiednio wypaczona i przydatna w przypadku rzeczy o naturalnym minimum 0. Powszechnie stosowana w przypadku upływu czasu i niektórych zmiennych finansowych.
Wykładniczy: szczególny przypadek gamma. Jest bez pamięci i łatwo się skaluje.
Chi-kwadrat ( ): specjalny przypadek gammy. Powstają jako suma kwadratowych zmiennych normalnych (tak używanych dla wariancji).χ2)
Beta: Zdefiniowana między 0 a 1 (ale może być przekształcona tak, aby zawierała inne wartości), przydatna w przypadku proporcji lub innych wielkości, które muszą zawierać się w przedziale od 0 do 1.
Dwumianowy: Ile „sukcesów” z danej liczby niezależnych prób z takim samym prawdopodobieństwem „sukcesu”.
Poisson: wspólny dla zliczeń. Ładne właściwości, że jeśli liczba zdarzeń w danym okresie lub obszarze jest zgodna z Poissonem, to liczba w dwukrotności czasu lub obszaru nadal odpowiada Poissonowi (z dwukrotnością średniej): działa to na dodanie Poissons lub skalowanie z wartościami innymi niż 2)
Należy zauważyć, że jeśli zdarzenia występują w czasie, a czas między wystąpieniami następuje wykładniczo, to liczba występująca w danym okresie następuje po Poissonie.
Ujemny dwumianowy: Liczy się z minimum 0 (lub inną wartością w zależności od wersji) i bez górnej granicy. Koncepcyjnie jest to liczba „awarii” przed k „sukcesami”. Ujemny dwumian jest także mieszaniną zmiennych Poissona, których średnie pochodzą z rozkładu gamma.
Geometryczny: szczególny przypadek dla ujemnego dwumianu, w którym jest to liczba „awarii” przed pierwszym „sukcesem”. Jeśli obetniesz (zaokrąglisz w dół) zmienną wykładniczą, aby była dyskretna, wynik będzie geometryczny.
źródło
Teoria asymptotyczna prowadzi do rozkładu normalnego, skrajnych typów wartości, praw stabilnych i Poissona. Wykładniczy i Weibull mają tendencję do pojawiania się jako parametryczny czas do rozkładu zdarzeń. W przypadku Weibulla jest to ekstremalny typ wartości dla minimum próbki. Związane z modelami parametrycznymi dla normalnie rozłożonych obserwacji, rozkłady chi kwadrat, ti F powstają w testach hipotez i estymacji przedziału ufności. Chi kwadrat pojawia się również w analizie tabeli kontyngencji i testach dobroci dopasowania. Do badania mocy testów mamy niecentralne rozkłady ti F. Rozkład hipergeometryczny powstaje w dokładnym teście Fishera dla tabel awaryjnych. Rozkład dwumianowy jest ważny podczas przeprowadzania eksperymentów w celu oszacowania proporcji. Ujemny dwumian jest ważnym rozkładem do naddyspersji modelu w procesie punktowym. To powinno dać ci dobry start w praktycznych rozproszeniach parametrycznych. W przypadku nieujemnych zmiennych losowych na (0, ∞) rozkład gamma jest elastyczny, zapewniając różne kształty, a logarytm normalny jest również powszechnie stosowany. W [0,1] rodzina beta zapewnia rozkład symetryczny, w tym jednolity, a także rozkłady pochylone w lewo lub pochylone w prawo.
Powinienem również wspomnieć, że jeśli chcesz poznać wszystkie drobiazgowe szczegóły dotyczące rozkładów w statystykach, istnieje klasyczna seria książek Johnsona i Kotza, które obejmują rozkłady dyskretne, ciągłe rozkłady jednowymiarowe i ciągłe rozkłady wielowymiarowe, a także tom 1 teorii zaawansowanej statystyk Kendalla i Stuarta.
źródło
Kup i przeczytaj przynajmniej pierwsze 6 rozdziałów (pierwsze 218 stron) Williama J. Fellera „Wprowadzenie do teorii prawdopodobieństwa i jej zastosowania, tom 2” http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . Przynajmniej przeczytaj wszystkie problemy do rozwiązania, a najlepiej spróbuj rozwiązać jak najwięcej. Nie musisz czytać tomu 1, który moim zdaniem nie jest szczególnie chwalebny.
Pomimo tego, że autor zmarł 45 1/2 lat temu, zanim jeszcze książka została ukończona, jest to po prostu najlepsza książka, bez żadnych ograniczeń, do rozwijania intuicji w procesach prawdopodobieństwa i stochastycznych oraz zrozumienia i rozwijania wyczucia różnych dystrybucji , w jaki sposób odnoszą się one do zjawisk świata rzeczywistego i różnych zjawisk stochastycznych, które mogą i mają miejsce. Dzięki solidnemu fundamentowi, który z niego zbudujesz, będziesz dobrze obsługiwany w statystykach.
Jeśli uda ci się przejść przez kolejne rozdziały, co staje się nieco trudniejsze, będziesz o lata świetlne przed prawie wszystkimi. Mówiąc prosto, jeśli znasz Feller Vol 2, znasz prawdopodobieństwo (i procesy stochastyczne); co oznacza, że wszystko, czego nie wiesz, na przykład nowe osiągnięcia, będziesz w stanie szybko podnieść i opanować, budując na tym solidnym fundamencie.
Prawie wszystko, co poprzednio wspomniano w tym wątku, znajduje się w Feller Vol 2 (nie cały materiał w Kendall Advanced Theory of Statistics, ale czytanie tej książki będzie bułką z masłem po Feller Vol 2) i jeszcze więcej w sposób, który powinien rozwinąć twoje stochastyczne myślenie i intuicję. Johnson i Kotz dobrze nadają się do drobiazgów na temat różnych rozkładów prawdopodobieństwa, Feller Vol 2 jest przydatny do nauki, jak myśleć probabilistycznie, i wiedzieć, co wyciągać z Johnsona i Kotza i jak z tego korzystać.
źródło
Aby dodać do innych doskonałych odpowiedzi.
źródło
Niedawno opublikowane badaniasugeruje, że działanie człowieka NIE jest normalnie rozkładane, wbrew powszechnej opinii. Przeanalizowano dane z czterech dziedzin: (1) Nauczyciele akademiccy w 50 dyscyplinach, w oparciu o częstotliwość publikacji w najważniejszych czasopismach branżowych. (2) Artyści estradowi, tacy jak aktorzy, muzycy i pisarze, a także liczba otrzymanych prestiżowych nagród, nominacji lub wyróżnień. (3) Politycy w 10 krajach i wyniki wyborów / reelekcji. (4) Kolegiaci i zawodowi sportowcy poszukujący najbardziej zindywidualizowanych dostępnych wskaźników, takich jak liczba biegów do domu, przyjęć w sportach zespołowych i łączna wygrana w sporcie indywidualnym. Autor pisze: „Widzieliśmy wyraźny i spójny rozkład prawa władzy w każdym badaniu, niezależnie od tego, jak wąsko lub szeroko analizowaliśmy dane ...”
źródło