Mam coś, co naiwnie uważałem za dość prosty problem, który polega na wykrywaniu wartości odstających dla wielu różnych zestawów danych zliczania. W szczególności chcę ustalić, czy jedna lub więcej wartości w serii danych zliczania jest wyższa lub niższa niż oczekiwano w stosunku do reszty zliczeń w rozkładzie.
Czynnikiem zakłócającym jest to, że muszę to zrobić dla 3500 rozkładów i prawdopodobnie niektóre z nich będą pasowały do nadciśnionego rozproszenia zerowego, podczas gdy inne najlepiej pasują do dwumianu ujemnego lub ZINB, podczas gdy inne mogą być normalnie rozłożone. Z tego powodu proste wyniki Z lub wykreślanie rozkładu nie są odpowiednie dla większości zestawu danych. Oto przykład danych zliczania, dla których chcę wykryć wartości odstające.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Początkowo myślałem, że będę musiał napisać pętlę w Pythonie lub R, która zastosuje zestaw modeli do każdej dystrybucji i wybierze model najlepiej dopasowany do AIC lub innego (może fitdistrplus w R?). Mógłbym wtedy zapytać, jakie były skrajności dla danego rozkładu (liczby, które wypadają w ogonach, np. Czy liczba „4” byłaby wartością odstającą w powyższym rozkładzie liczba)? Nie jestem jednak pewien, czy jest to ważna strategia i przyszło mi do głowy, że może istnieć prosta metodologia określania wartości odstających w danych liczbowych, o których nie wiedziałam. Szukałem szeroko i nie znalazłem nic, co wydaje się odpowiednie dla mojego problemu, biorąc pod uwagę liczbę dystrybucji, na które chcę spojrzeć.
Moim ostatecznym celem jest wykrycie znacznych wzrostów lub spadków zliczeń dla każdego rozkładu zliczeń, przy użyciu najbardziej odpowiedniej statystycznie metodologii.
źródło