Symulowanie rozkładów

9

Pracuję nad zadaniem planowania pojemności i przeczytałem kilka książek. Dotyczy to w szczególności dystrybucji. Używam R.

  1. Jakie jest zalecane podejście do identyfikacji mojej dystrybucji danych? Czy istnieją statystyczne metody jego identyfikacji?

Mam ten schemat.

PODEJŚCIA PROBABILISTYCZNE: ANALIZA SCENARIUSZA, DRZEW DECYZJI I SYMULACJE

  1. Jakie są dostępne podejścia do symulacji przy użyciu R? Tutaj chcę wygenerować dane dla określonej dystrybucji, takiej jak wykładnicza. Czy r-java jest właściwym podejściem, jeśli chcę zintegrować go z Javą?

  2. Czy istnieje sposób przewidzenia, jaki rozkład będzie miał efekt (użycie procesora itp.), Gdy przesyłam dane do określonej dystrybucji? Jakie są różne skutki wysyłania określonych dystrybucji danych?

Proszę rozważyć je jako pytania dla początkujących. Czy istnieją książki lub materiały dotyczące tego rodzaju symulacji?

Notatki

Schemat pochodzi z końca artykułu http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Techniki dopasowania, jakie napotkałem

Ocena dobroci dopasowania

  1. Chi-kwadrat
  2. Kołmogorow-Smirnov,
  3. Gęstość statystyki Andersona-Darlinga, wykresy cdf, PP i QQ

Nie jestem pewien, jaka powinna być interpretacja lub następne kroki, jeśli stwierdzę, że mój rozkład jest normalny lub wykładniczy itp. Co mi na to pozwala? Prognoza? Mam nadzieję, że to pytanie jest jasne.

Opóźnienia wykładnicze wywołają wahania kolejek zgodnie z moją książką Planowanie pojemności autorstwa Neila Gunthera. Więc znam ten jeden punkt.

Mohan Radhakrishnan
źródło
Jeśli uważasz, że Twój schemat jest ważny, powinieneś spróbować poprawić jakość obrazu ...
ocram
Doceniam staranność zadawania miłych pytań. Moim zdaniem twój punkt 2. (chyba 3) wymaga wyjaśnienia, a nawet możesz przenieść go do Przepełnienia stosu.
gui11aume
1
Myślę, że moje ostatnie pytanie należy tutaj. Powiedzmy, że identyfikuję moją dystrybucję danych. Czy przewiduję, że przyszłe rozkłady będą odpowiadały temu prawdopodobieństwu? Brakuje mi tutaj części do analizy danych. Wiem, że fabuła bokobrody z łatwością pokazuje kwartyle, które rozumiem. Nie dostaję użyteczności dystrybucji. Oby istniały właściwości tego rozkładu, które muszę zbadać w celu przewidywania.
Mohan Radhakrishnan
@ocram Jeśli jakość jest niska, powiększ stronę w przeglądarce: szczegóły są dostępne. BTW, te obrazy muszą pochodzić z dokumentacji Crystal Ball .
whuber
@whuber: Rzeczywiście, nawet nie próbowałem! Przepraszam za komentarz.
ocram

Odpowiedzi:

7

Odpowiem ci na temat symulacji za pomocą R, ponieważ jest to jedyna, którą znam. R ma wiele wbudowanych rozkładów, które można symulować. Logika nazewnictwa polega na tym, że do symulacji dystrybucji zwanej disnazwą będzie rdis.

Poniżej znajdują się te, których najczęściej używam

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Można znaleźć kilka uzupełnień w Dopasowanie rozkładów R .

Dodatek: dzięki @jthetzel za udostępnienie linku z pełną listą dystrybucji i pakietów, do których należą.

Ale poczekaj, jest więcej: OK, po komentarzu @ whubera postaram się odnieść do innych punktów. Jeśli chodzi o punkt 1, nigdy nie stosuję podejścia polegającego na dopasowaniu. Zamiast tego zawsze myślę o pochodzeniu sygnału, na przykład o tym, co powoduje to zjawisko, czy istnieje pewna naturalna symetria w jego wytwarzaniu itp. Potrzebujesz kilku rozdziałów książki, aby go opisać, więc podam tylko dwa przykłady.

  1. Jeśli dane się liczą i nie ma górnej granicy, próbuję Poissona. Zmienne Poissona można interpretować jako liczby kolejnych niezależnych w oknie czasowym, które jest bardzo ogólną strukturą. Dopasowuję rozkład i sprawdzam (często wizualnie), czy wariancja jest dobrze opisana. Dość często wariancja próbki jest znacznie wyższa, w takim przypadku używam dwumianu ujemnego. Ujemny dwumian można interpretować jako mieszankę Poissona z różnymi zmiennymi, co jest jeszcze bardziej ogólne, więc zwykle pasuje bardzo dobrze do próbki.

  2. Jeśli myślę, że dane są symetryczne wokół średniej, tj. Że odchylenia są równie prawdopodobne, że będą dodatnie lub ujemne, staram się dopasować Gaussa. Następnie sprawdzam (ponownie wizualnie), czy jest dużo wartości odstających, tj. Punkty danych są bardzo oddalone od średniej. Jeśli tak, używam zamiast tego t Studenta. Rozkład t Studenta można interpretować jako mieszaninę Gaussa z różnymi wariancjami, co jest znowu bardzo ogólne.

W tych przykładach, kiedy mówię wizualnie, mam na myśli, że używam wykresu QQ

Punkt 3 również zasługuje na kilka rozdziałów książki. Efekty użycia rozkładu zamiast innego są nieograniczone. Zamiast przejść przez to wszystko, będę kontynuować dwa powyższe przykłady.

  1. Na początku nie wiedziałem, że dwumian ujemny może mieć sensowną interpretację, więc cały czas korzystałem z Poissona (ponieważ lubię być w stanie interpretować parametry w kategoriach ludzkich). Bardzo często, kiedy używasz Poissona, ładnie pasujesz do średniej, ale nie doceniasz wariancji. Oznacza to, że nie jesteś w stanie odtworzyć ekstremalnych wartości próbki i weźmiesz pod uwagę takie wartości jak wartości odstające (punkty danych, które nie mają takiego samego rozkładu jak inne punkty), podczas gdy tak naprawdę nie są.

  2. Ponownie na początku nie wiedziałem, że t Studenta również ma sensowną interpretację i że cały czas będę używać Gaussa. Podobnie się stało. Dobrze dopasowałbym średnią i wariancję, ale nadal nie wychwyciłbym wartości odstających, ponieważ prawie wszystkie punkty danych powinny znajdować się w granicach 3 standardowych odchyleń od średniej. To samo się stało, doszedłem do wniosku, że niektóre punkty były „nadzwyczajne”, podczas gdy w rzeczywistości tak nie było.

gui11aume
źródło
2
Uwaga, aby dodać do odpowiedzi gui11aume za: Istnieje „d, p, q, r” Składnia funkcji dystrybucyjnych związanych z R. Na przykład dnorm, pnorm, qnorm, i rnormsą gęstość, Dystrybuanta (CDF), odwrotna CDF i funkcje generatora zmiennych losowych odpowiednio dla rozkładu normalnego. Zobacz widok zadania rozkładu prawdopodobieństwa, aby uzyskać pełną listę dostępnych rozkładów.
jthetzel
Tak, wielkie dzięki (+1). Długo szukałem takiej listy. Podaję to w odpowiedzi, aby było bardziej widoczne.
gui11aume
1
Nie mogę nawet powiedzieć, jaka jest jedna trzecia tych dystrybucji. Tyle więcej do nauczenia ... +1, ale nie zapominajmy o pozostałej części pytania, które jest fundamentalne (ale może trochę za szerokie): jakie efekty mają wybory dystrybucji w symulacji? Jak należy dokonywać takich wyborów?
whuber
@ whuber Dodałem efekt wykładniczego rozkładu opóźnień na wahania kolejek. Odnosić się. książki o CP lub kolejce.
Mohan Radhakrishnan
Przeczytałem rozkłady dopasowania z R, a także raz użyłem wykresu QQ. Oszacowanie maksymalnego prawdopodobieństwa rozpoczyna się od wyrażenia matematycznego znanego jako funkcja prawdopodobieństwa danych przykładowych. Mówiąc luźniej, prawdopodobieństwo zbioru danych to prawdopodobieństwo uzyskania tego konkretnego zestawu danych, biorąc pod uwagę wybrany model prawdopodobieństwa. Czy to oznacza, że ​​istnieje sposób, aby obliczyć, że rozkład może wystąpić ponownie? Ile pomiarów jest wymaganych, aby to udowodnić?
Mohan Radhakrishnan