wydaje się to bardzo naiwnym pytaniem, ale trudno mi znaleźć odpowiedź.
Mam jeden zestaw 30 wartości. Niezależnie uzyskałem 31. wartość. Hipoteza zerowa jest taka, że 31. wartość jest częścią tego samego rozkładu. Alternatywą jest to, że jest inaczej. Chcę pewnego rodzaju wartości p lub miary prawdopodobieństwa.
Kilka myśli, które miałem:
- Jest to podobne do chęci przeprowadzenia dwupróbkowego testu t - z wyjątkiem tego, że dla drugiej próbki mam tylko jedną wartość, a 30 wartości niekoniecznie są normalnie rozłożone.
- Jeśli zamiast 30 pomiarów miałem 10000 pomiarów, ranga pojedynczego pomiaru może dostarczyć użytecznych informacji.
Jak obliczyć to prawdopodobieństwo lub wartość p?
Dzięki! Yannick
hypothesis-testing
bayesian
t-test
Yannick Wurm
źródło
źródło
Odpowiedzi:
W przypadku unimodalnym nierówność Vysochanskij-Petunin może dać ci przybliżony przedział prognozy. Oto strona wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality
Za pomocąλ = 3 spowoduje przybliżony 95% przedział prognozy.
Oszacowujesz więc średnią i odchylenie standardowe populacji i po prostu używasz średniej próbkix¯ plus lub minus 3 s jako twój interwał.
Z tym podejściem wiąże się kilka problemów. Naprawdę nie znasz średniej ani odchylenia standardowego; używasz szacunków. Ogólnie rzecz biorąc, nie będziesz miał jednomodalnych dystrybucji, co oznacza, że będziesz musiał używać specjalistycznych wersji nierówności Czebyszewa. Ale przynajmniej masz punkt wyjścia.
W ogólnym przypadku Konijn (The American Statistician, luty 1987) stwierdza, że statystyki zamówień mogą być wykorzystane jako przedział prognozy. Więc[x( i ),x( j )] jest przedziałem prognozy dla X z tym, co Konijn nazywa rozmiarem j - in + 1. Rozmiar jest definiowany jako „największa dolna granica (w odniesieniu do zestawu dopuszczalnych rozkładów połączeń) prawdopodobieństwa, że przedział obejmie wartość, która X jest do przyjęcia. ”Przy takim podejściu przewidywany byłby przedział 93,6% [x( 1 ),x( 30 )] .
Podaje także podejście przypisywane Sawowi, Yangowi i Mo:
Na przykład zn = 30 , za pomocą λ = 3,2 dałby zasięg przekraczający 90%.
źródło
Poprawny. Pomysł przypomina trochę test t z jedną wartością. Ponieważ rozkład nie jest znany, a normalność z jedynie 30 punktami danych może być nieco trudna do przełknięcia, wymaga to pewnego rodzaju testu nieparametrycznego.
Nawet przy 30 pomiarach ranga może być informacyjna.
Jak zauważył @whuber, potrzebujesz pewnego rodzaju przedziału predykcji. W przypadku nieparametrycznym pytasz zasadniczo: jakie jest prawdopodobieństwo, że dany punkt danych miałby przypadkowo rangę, którą obserwujemy dla twojego 31. pomiaru?
Można temu zaradzić za pomocą prostego testu permutacji. Oto przykład z 15 wartościami i powieścią (szesnasta obserwacja), która jest faktycznie większa niż dowolna z poprzednich:
Wykonujemy N permutacji, w których kolejność elementów na liście jest tasowana, a następnie zadajemy pytanie: jaka jest pozycja wartości pierwszego elementu na liście (tasowanej)?
Wykonanie N = 1000 permutacji daje nam 608 przypadków, w których ranga pierwszego elementu na liście jest równa lub lepsza do rangi nowej wartości (w rzeczywistości równej, ponieważ nowa wartość jest najlepsza). Ponownie uruchamiając symulację dla 1000 permutacji, otrzymujemy 658 takich przypadków, a następnie 663 ...
Jeśli wykonamy N = 1 000 000 permutacji, otrzymamy 62825 przypadków, w których ranga pierwszego elementu na liście jest równa lub lepsza od rangi nowej wartości (dalsze symulacje dają 62871 przypadków, a następnie 62840 ...). Jeśli weźmiemy stosunek między przypadkami, w których warunek jest spełniony, a całkowitą liczbą permutacji, otrzymamy liczby takie jak 0,062825, 0,062871, 0,06284 ...
Widać, że wartości te zbiegają się w kierunku 1/16 = 0,0625 (6,25%), co, jak zauważa @whuber, jest prawdopodobieństwem, że dana wartość (z 16) losowana ma najlepszą możliwą rangę wśród nich.
W przypadku nowego zestawu danych, w którym nowa wartość jest drugą najlepszą wartością (tj. Ranga 2):
otrzymujemy (dla N = 1 000 000 permutacji): 125235, 124883 ... korzystne przypadki, które ponownie przybliżają prawdopodobieństwo, że dana wartość (z 16) losowana ma drugą z możliwych rangę: 2/16 = 0,125 (12,5%).
źródło