Czy ta pojedyncza wartość pasuje do tego rozkładu?

10

wydaje się to bardzo naiwnym pytaniem, ale trudno mi znaleźć odpowiedź.

Mam jeden zestaw 30 wartości. Niezależnie uzyskałem 31. wartość. Hipoteza zerowa jest taka, że ​​31. wartość jest częścią tego samego rozkładu. Alternatywą jest to, że jest inaczej. Chcę pewnego rodzaju wartości p lub miary prawdopodobieństwa.

Kilka myśli, które miałem:

  • Jest to podobne do chęci przeprowadzenia dwupróbkowego testu t - z wyjątkiem tego, że dla drugiej próbki mam tylko jedną wartość, a 30 wartości niekoniecznie są normalnie rozłożone.
  • Jeśli zamiast 30 pomiarów miałem 10000 pomiarów, ranga pojedynczego pomiaru może dostarczyć użytecznych informacji.

Jak obliczyć to prawdopodobieństwo lub wartość p?

Dzięki! Yannick

Yannick Wurm
źródło
4
Pytasz o przedział prognozy . Twoja druga myśl prowadzi do nieparametrycznych przedziałów prognoz (które, jak sądzę, nie były wcześniej wspomniane na tej stronie).
whuber
Co jeszcze możesz nam powiedzieć o swojej populacji? Czy wszystkie wartości są dodatnie? Czy spodziewałbyś się, że będzie symetryczny? Unimodal?
soakley
Dziękuję i przepraszam, że powinienem był podać więcej informacji. Przyjrzymy się przedziałom prognoz. Zasadniczo mamy długość prognozy ogniskowej genu. I długości podobnych genów znalezionych w bazach danych. Więc wszystkie liczby są dodatnimi liczbami całkowitymi. W łatwym przypadku rozkład długości jest jednomodalny. W rzeczywistości często nie są; na tym etapie możemy przypuszczać, że są. Niektóre wykresy dystrybucji są pokazane tutaj: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm
Nie jestem przekonany, że chcemy „przedziału przewidywania” Nie chcemy przewidywać… i nie chcemy przedziału…?
Yannick Wurm
1
Nie interpretuj terminów technicznych. Z definicji „przedział predykcji” jest konstruowany z wartości w taki sposób, że przy założonym łącznym rozkładzie wszystkich wartości szansa, że ​​31 wartość mieści się w równa się danemu celowi, np. 95%. Jeśli w rzeczywistości 31. wartość nie mieści się w zakresie , możesz dojść do wniosku, że (i) miałeś pecha (który miał tylko 5% szansy na zdarzenie przed zebraniem danych) lub (ii) nie jest to tak naprawdę przypadek, w którym 31. wartość ma rozkład, który zakładałeś, że tak zrobił: i właśnie to chcesz przetestować. I3031II
whuber

Odpowiedzi:

7

W przypadku unimodalnym nierówność Vysochanskij-Petunin może dać ci przybliżony przedział prognozy. Oto strona wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

Za pomocą λ=3 spowoduje przybliżony 95% przedział prognozy.

Oszacowujesz więc średnią i odchylenie standardowe populacji i po prostu używasz średniej próbki x¯ plus lub minus 3s jako twój interwał.

Z tym podejściem wiąże się kilka problemów. Naprawdę nie znasz średniej ani odchylenia standardowego; używasz szacunków. Ogólnie rzecz biorąc, nie będziesz miał jednomodalnych dystrybucji, co oznacza, że ​​będziesz musiał używać specjalistycznych wersji nierówności Czebyszewa. Ale przynajmniej masz punkt wyjścia.

W ogólnym przypadku Konijn (The American Statistician, luty 1987) stwierdza, że ​​statystyki zamówień mogą być wykorzystane jako przedział prognozy. Więc[x(i),x(j)] jest przedziałem prognozy dla X z tym, co Konijn nazywa rozmiarem jin+1. Rozmiar jest definiowany jako „największa dolna granica (w odniesieniu do zestawu dopuszczalnych rozkładów połączeń) prawdopodobieństwa, że ​​przedział obejmie wartość, która X jest do przyjęcia. ”Przy takim podejściu przewidywany byłby przedział 93,6% [x(1),x(30)].

Podaje także podejście przypisywane Sawowi, Yangowi i Mo:

[x¯-λ(1+1n)1/2)s , x¯+λ(1+1n)1/2)s],
ze szczegółowymi informacjami na temat zasięgu podanymi w artykule.

Na przykład z n=30, za pomocą λ=3.2 dałby zasięg przekraczający 90%.

soakley
źródło
Wydaje się, że jest to niewłaściwe zastosowanie nierówności: zakłada się, że znana jest średnia i wariancja , przy czym wariancję można oszacować tylko na podstawie danych w tym kontekście. Różnica może być ogromna, szczególnie w przypadku małych zestawów danych. W moich badaniach symulacyjnych podobnych propozycji z nierównością Czebyszewa znalazłem zadziwiająco słabą wydajność. Intuicyjnie jest to podobne do wglądu Studenta, że ​​do konstruowania CI należy zastosować rozkład t zamiast rozkładu normalnego; ponieważ PI jest znacznie dalej „tam” w ogonach, różnica jest powiększona.
whuber
2
Ponowna edycja (+1): Nieparametryczny przedział predykcji można rozumieć jako test permutacji w ramach hipotezy iid null. W takim przypadku jest tylko2)/316,45% szans, że 31. wartość będzie największą lub najmniejszą ze wszystkich 31 wartości. W powiązanym teście stwierdzono, że 31. wartość jest niezgodna z pozostałymi 30, gdy jest ona najmniejsza lub największa. Ten test ma rozmiar (w zwykłym znaczeniu ):6,45% Jest to najmniejszy rozmiar, jaki można uzyskać dla testu (dwustronnego) z 30 wartościami danych.
whuber
1

Kilka myśli, które miałem:

Jest to podobne do chęci przeprowadzenia dwupróbkowego testu t - z wyjątkiem tego, że dla drugiej próbki mam tylko jedną wartość, a 30 wartości niekoniecznie są normalnie rozłożone.

Poprawny. Pomysł przypomina trochę test t z jedną wartością. Ponieważ rozkład nie jest znany, a normalność z jedynie 30 punktami danych może być nieco trudna do przełknięcia, wymaga to pewnego rodzaju testu nieparametrycznego.

Jeśli zamiast 30 pomiarów miałem 10000 pomiarów, ranga pojedynczego pomiaru może dostarczyć użytecznych informacji.

Nawet przy 30 pomiarach ranga może być informacyjna.

Jak zauważył @whuber, potrzebujesz pewnego rodzaju przedziału predykcji. W przypadku nieparametrycznym pytasz zasadniczo: jakie jest prawdopodobieństwo, że dany punkt danych miałby przypadkowo rangę, którą obserwujemy dla twojego 31. pomiaru?

Można temu zaradzić za pomocą prostego testu permutacji. Oto przykład z 15 wartościami i powieścią (szesnasta obserwacja), która jest faktycznie większa niż dowolna z poprzednich:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Wykonujemy N permutacji, w których kolejność elementów na liście jest tasowana, a następnie zadajemy pytanie: jaka jest pozycja wartości pierwszego elementu na liście (tasowanej)?

Wykonanie N = 1000 permutacji daje nam 608 przypadków, w których ranga pierwszego elementu na liście jest równa lub lepsza do rangi nowej wartości (w rzeczywistości równej, ponieważ nowa wartość jest najlepsza). Ponownie uruchamiając symulację dla 1000 permutacji, otrzymujemy 658 takich przypadków, a następnie 663 ...

Jeśli wykonamy N = 1 000 000 permutacji, otrzymamy 62825 przypadków, w których ranga pierwszego elementu na liście jest równa lub lepsza od rangi nowej wartości (dalsze symulacje dają 62871 przypadków, a następnie 62840 ...). Jeśli weźmiemy stosunek między przypadkami, w których warunek jest spełniony, a całkowitą liczbą permutacji, otrzymamy liczby takie jak 0,062825, 0,062871, 0,06284 ...

Widać, że wartości te zbiegają się w kierunku 1/16 = 0,0625 (6,25%), co, jak zauważa @whuber, jest prawdopodobieństwem, że dana wartość (z 16) losowana ma najlepszą możliwą rangę wśród nich.

W przypadku nowego zestawu danych, w którym nowa wartość jest drugą najlepszą wartością (tj. Ranga 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

otrzymujemy (dla N = 1 000 000 permutacji): 125235, 124883 ... korzystne przypadki, które ponownie przybliżają prawdopodobieństwo, że dana wartość (z 16) losowana ma drugą z możliwych rangę: 2/16 = 0,125 (12,5%).

pythiest
źródło