Pracuję nad zadaniem planowania pojemności i przeczytałem kilka książek. Dotyczy to w szczególności dystrybucji. Używam R.
- Jakie jest zalecane podejście do identyfikacji mojej dystrybucji danych? Czy istnieją statystyczne metody jego identyfikacji?
Mam ten schemat.
Jakie są dostępne podejścia do symulacji przy użyciu R? Tutaj chcę wygenerować dane dla określonej dystrybucji, takiej jak wykładnicza. Czy r-java jest właściwym podejściem, jeśli chcę zintegrować go z Javą?
Czy istnieje sposób przewidzenia, jaki rozkład będzie miał efekt (użycie procesora itp.), Gdy przesyłam dane do określonej dystrybucji? Jakie są różne skutki wysyłania określonych dystrybucji danych?
Proszę rozważyć je jako pytania dla początkujących. Czy istnieją książki lub materiały dotyczące tego rodzaju symulacji?
Notatki
Schemat pochodzi z końca artykułu http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .
Techniki dopasowania, jakie napotkałem
Ocena dobroci dopasowania
- Chi-kwadrat
- Kołmogorow-Smirnov,
- Gęstość statystyki Andersona-Darlinga, wykresy cdf, PP i QQ
Nie jestem pewien, jaka powinna być interpretacja lub następne kroki, jeśli stwierdzę, że mój rozkład jest normalny lub wykładniczy itp. Co mi na to pozwala? Prognoza? Mam nadzieję, że to pytanie jest jasne.
Opóźnienia wykładnicze wywołają wahania kolejek zgodnie z moją książką Planowanie pojemności autorstwa Neila Gunthera. Więc znam ten jeden punkt.
źródło
Odpowiedzi:
Odpowiem ci na temat symulacji za pomocą R, ponieważ jest to jedyna, którą znam. R ma wiele wbudowanych rozkładów, które można symulować. Logika nazewnictwa polega na tym, że do symulacji dystrybucji zwanej
dis
nazwą będzierdis
.Poniżej znajdują się te, których najczęściej używam
Można znaleźć kilka uzupełnień w Dopasowanie rozkładów R .
Dodatek: dzięki @jthetzel za udostępnienie linku z pełną listą dystrybucji i pakietów, do których należą.
Ale poczekaj, jest więcej: OK, po komentarzu @ whubera postaram się odnieść do innych punktów. Jeśli chodzi o punkt 1, nigdy nie stosuję podejścia polegającego na dopasowaniu. Zamiast tego zawsze myślę o pochodzeniu sygnału, na przykład o tym, co powoduje to zjawisko, czy istnieje pewna naturalna symetria w jego wytwarzaniu itp. Potrzebujesz kilku rozdziałów książki, aby go opisać, więc podam tylko dwa przykłady.
Jeśli dane się liczą i nie ma górnej granicy, próbuję Poissona. Zmienne Poissona można interpretować jako liczby kolejnych niezależnych w oknie czasowym, które jest bardzo ogólną strukturą. Dopasowuję rozkład i sprawdzam (często wizualnie), czy wariancja jest dobrze opisana. Dość często wariancja próbki jest znacznie wyższa, w takim przypadku używam dwumianu ujemnego. Ujemny dwumian można interpretować jako mieszankę Poissona z różnymi zmiennymi, co jest jeszcze bardziej ogólne, więc zwykle pasuje bardzo dobrze do próbki.
Jeśli myślę, że dane są symetryczne wokół średniej, tj. Że odchylenia są równie prawdopodobne, że będą dodatnie lub ujemne, staram się dopasować Gaussa. Następnie sprawdzam (ponownie wizualnie), czy jest dużo wartości odstających, tj. Punkty danych są bardzo oddalone od średniej. Jeśli tak, używam zamiast tego t Studenta. Rozkład t Studenta można interpretować jako mieszaninę Gaussa z różnymi wariancjami, co jest znowu bardzo ogólne.
W tych przykładach, kiedy mówię wizualnie, mam na myśli, że używam wykresu QQ
Punkt 3 również zasługuje na kilka rozdziałów książki. Efekty użycia rozkładu zamiast innego są nieograniczone. Zamiast przejść przez to wszystko, będę kontynuować dwa powyższe przykłady.
Na początku nie wiedziałem, że dwumian ujemny może mieć sensowną interpretację, więc cały czas korzystałem z Poissona (ponieważ lubię być w stanie interpretować parametry w kategoriach ludzkich). Bardzo często, kiedy używasz Poissona, ładnie pasujesz do średniej, ale nie doceniasz wariancji. Oznacza to, że nie jesteś w stanie odtworzyć ekstremalnych wartości próbki i weźmiesz pod uwagę takie wartości jak wartości odstające (punkty danych, które nie mają takiego samego rozkładu jak inne punkty), podczas gdy tak naprawdę nie są.
Ponownie na początku nie wiedziałem, że t Studenta również ma sensowną interpretację i że cały czas będę używać Gaussa. Podobnie się stało. Dobrze dopasowałbym średnią i wariancję, ale nadal nie wychwyciłbym wartości odstających, ponieważ prawie wszystkie punkty danych powinny znajdować się w granicach 3 standardowych odchyleń od średniej. To samo się stało, doszedłem do wniosku, że niektóre punkty były „nadzwyczajne”, podczas gdy w rzeczywistości tak nie było.
źródło
dnorm
,pnorm
,qnorm
, irnorm
są gęstość, Dystrybuanta (CDF), odwrotna CDF i funkcje generatora zmiennych losowych odpowiednio dla rozkładu normalnego. Zobacz widok zadania rozkładu prawdopodobieństwa, aby uzyskać pełną listę dostępnych rozkładów.