Jak obliczyć przedziały ufności dla współczynników?

12

Rozważ eksperyment, który daje stosunek między 0 a 1. Sposób uzyskania tego stosunku nie powinien być istotny w tym kontekście. Został on opracowany w poprzedniej wersji tego pytania , ale został usunięty dla jasności po dyskusji na temat meta .Xi

Ten eksperyment powtarza się razy, podczas gdy jest małe (około 3-10). są uważane za niezależne i identycznie rozmieszczone. Na ich podstawie szacujemy średnią, obliczając średnią , ale jak obliczyć odpowiedni przedział ufności ?n X i ¯ X [ U , V ]nnXiX¯[U,V]

Kiedy używam standardowego podejścia do obliczania przedziałów ufności, jest czasami większe niż 1. Jednak intuicję mam, że poprawny przedział ufności ...V

  1. ... powinien mieścić się w zakresie 0 i 1
  2. ... powinien się zmniejszyć wraz ze wzrostem liczbyn
  3. ... jest mniej więcej w kolejności obliczonej przy użyciu standardowego podejścia
  4. ... oblicza się przy pomocy solidnej metody matematycznej

Nie są to absolutne wymagania, ale chciałbym przynajmniej zrozumieć, dlaczego moja intuicja jest błędna.

Obliczenia na podstawie istniejących odpowiedzi

Poniżej porównano przedziały ufności wynikające z istniejących odpowiedzi dla .{Xi}={0.985,0.986,0.935,0.890,0.999}

Podejście standardowe (aka „School Math”)

σ2=0,0204[0,865,1,053]X¯=0.959 , , a zatem 99% przedział ufności wynosi . Jest to sprzeczne z intuicją 1.σ2=0.0204[0.865,1.053]

Kadrowanie (sugerowane przez @soakley w komentarzach)

Wystarczy zastosować standardowe podejście, a następnie ponieważ wynik jest łatwy do zrobienia. Ale czy możemy to zrobić? Nie jestem jeszcze przekonany, że dolna granica pozostaje stała (-> 4.)[0.865,1.000]

Model regresji logistycznej (sugerowany przez @Rose Hartman)

Przekształcone dane: Wpływające , przekształcając go z powrotem wyniki . Oczywiście 6,90 jest wartością odstającą dla przekształconych danych, podczas gdy 0,99 nie jest dla danych nietransformowanych, co powoduje, że przedział ufności jest bardzo duży. (-> 3.)[ 0.173 , 7.87 ] [ 0.543 , 0.999 ]{4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

Dwumianowy przedział ufności proporcji (sugerowany przez @Tim)

Podejście wygląda całkiem dobrze, ale niestety nie pasuje do eksperymentu. Wystarczy połączyć wyniki i zinterpretować je jako jeden duży powtarzany eksperyment Bernoulliego, jak sugeruje @ZahavaKor, w następujący sposób:

5 1000 [ 0,9511 , 0,9657 ] X i985+986+890+935+999=4795 z ogółem. Karmienie tego do Adj. Kalkulator Wald daje . Nie wydaje się to realistyczne, ponieważ w tym przedziale nie ma ani jednego ! (-> 3.)51000[0.9511,0.9657]Xi

Bootstrapping (sugerowany przez @soakley)

Przy mamy 3125 możliwych kombinacji. Biorąc średniego środka permutacji, otrzymujemy . Nie wygląda tak źle, choć spodziewałbym się dłuższego interwału (-> 3). Jednak dla konstrukcji nigdy nie jest większa niż . Tak więc dla małej próbki będzie raczej rosła niż kurczyła się dla wzrostu (-> 2.). Tak przynajmniej dzieje się z próbkami podanymi powyżej.3093n=5[0,91;0,99][min(Xi),max(Xi)]n30933125=0.99[0.91,0.99][min(Xi),max(Xi)]n

koalo
źródło
Masz rację w swoim drugim podejściu. Nie jestem pewien pierwszego - nie jest to wyraźnie określone statystycznie. O ile mi wiadomo, odtwarzalność oznacza, że ​​ten sam eksperyment jest wykonywany przez innego badacza i uzyskują podobne wyniki. Musisz precyzyjniej określić cel, najlepiej w oparciu o hipotezę statystyczną dotyczącą parametru, który próbujesz oszacować. Samo użycie pojęcia „odtwarzalności” jest moim zdaniem zbyt niejasne.
Zahava Kor
Masz rację, powtarzalność jest poprawnym terminem, a nie odtwarzalnością. Spróbuję skonstruować definicję w kategoriach statystycznych.
koalo
@ZahavaKor Usunąłem mój nieokreślony przykład dotyczący powtarzalności i określiłem moją rzeczywistą aplikację, mając nadzieję, że wyjaśni ona mój problem i nie będzie myląca.
koalo
Jeśli naprawdę pobierasz próbki o wielkości 1000, to nie zastosowałeś poprawnie metody ponownego próbkowania. Ale przy tak dużej ilości danych nie potrzebujesz ponownego próbkowania i powinieneś uzyskać dobre wyniki (tj. Wąskie przedziały ufności) przy standardowym podejściu dwumianowym, jak pokazano powyżej. To, że poszczególne punkty danych nie znajdują się w wynikowym interwale, nie oznacza, że ​​interwał jest niepoprawny.
soakley
1
Pomyśl o tym. Próbkujesz 10 przedmiotów i osiągasz 9 sukcesów. Próbuję 1000 i mam 900 sukcesów. Kto będzie miał dokładniejsze oszacowanie średniej? Spróbuj użyć formuły, do której odwołuje się Tim, jeśli intuicja jeszcze nie istnieje. Tak więc w ostatnim przykładzie twojego pytania wielkość próbki nie wynosi 5, a 5000!
soakley

Odpowiedzi:

6

Po pierwsze, aby wyjaśnić, z czym masz do czynienia, nie jest to rozkład dwumianowy, jak sugeruje twoje pytanie (nazywasz to eksperymentem Bernoulliego). Rozkłady dwumianowe są dyskretne - wynikiem jest albo sukces, albo porażka. Twój wynik to współczynnik za każdym razem, gdy przeprowadzasz eksperyment , a nie zestaw sukcesów i porażek, na których następnie obliczasz jeden wskaźnik sumaryczny. Z tego powodu metody obliczania przedziału ufności proporcji dwumianowej odrzucą wiele twoich informacji. A jednak masz rację, że problematyczne jest traktowanie tego tak, jakby było normalnie rozłożone, ponieważ możesz uzyskać CI, który wykracza poza możliwy zakres twojej zmiennej.

Polecam myśleć o tym w kategoriach regresji logistycznej. Uruchom model regresji logistycznej ze zmienną współczynnika jako wynikiem i bez predyktorów. Przechwytywanie i jego CI da ci to, czego potrzebujesz w logach, a następnie możesz przekonwertować go z powrotem na proporcje. Możesz także samodzielnie wykonać konwersję logistyczną, obliczyć CI, a następnie powrócić do pierwotnej skali. Mój python jest okropny, ale oto jak możesz to zrobić w R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

histogram surowych danych

data_logits <- log(data/(1-data)) 
hist(data_logits)

histogram danych przekształconych logitem

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Oto dolna i górna granica dla 99% CI dla tych danych:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924
Rose Hartman
źródło
To brzmi jak dobre podejście, jednak wyniki nie są tym, czego oczekiwałbym intuicyjnie: data_logits dla 0.99,0.94,0.94 wynosi 4.59,2.75,2,75, dając przedział ufności [-2.73,9.47]. Przekształcenie tego w tył daje [0.061,0.999] - znacznie większy niż się spodziewałbym.
koalo
1
W przypadku zaledwie trzech obserwacji należy spodziewać się bardzo dużego przedziału ufności. Z twojego histogramu wygląda na to, że masz wiele więcej niż trzy obserwacje --- Przyjąłem twój przykład z 0.99,0.94,0.94 tylko dla zilustrowania. Jeśli twoja rzeczywista wielkość próby wynosi trzy, nie polecam w ogóle obliczania przedziałów ufności (lub środków, jeśli o to chodzi).
Rose Hartman
Powyższy histogram pochodzi ze skryptu Pythona, aby zilustrować mój problem. Nie jestem w stanie uzyskać tylu pomiarów z eksperymentu w świecie rzeczywistym. Przynajmniej nie dla każdej kombinacji parametrów. Zgadzam się, że 3 może być za małe i może około 10 będzie możliwych w końcowej ocenie, ale na pewno niewiele więcej. Co więc mam zrobić, aby wykazać, że nie miałem szczęścia, że ​​dostałem pojedynczy pomiar, ale że powtórzenie eksperymentu nie daje zupełnie innych wyników?
koalo
@RoseHartman To ładny, jasny opis, ale fajnie byłoby również zobaczyć, jak twoja metoda została zastosowana do próbki danych (n = 5) w pytaniu.
PM.
@ scitamehtam Napisałem swoją odpowiedź, zanim koalo podał przykładowe dane i wyjaśniłem, że wielkość próby wyniesie 10 lub mniej obserwacji. Koalo od tego czasu bardzo zaktualizowało oryginalne pytanie, aby uwzględnić działające przykłady z każdej metody odpowiedzi danymi n = 5.
Rose Hartman
3

Możesz spróbować ponownie próbkować / ładować. Spójrzmy na prosty przypadek, o którym wspomniałeś.

Przy 3 punktach danych: 0,99, 0,94 i 0,94 nie zrobiłbyś nawet ponownego próbkowania, ponieważ możesz po prostu wymienić wszystkie 27 możliwych kombinacji, znaleźć średnią w każdym przypadku, a następnie posortować średnie.

25/27=26/27=

n

Pytanie tutaj: Jak stworzyć przedział ufności dla parametru testu permutacji? daje więcej szczegółów, w tym trochę kodu R.

soakley
źródło
Jak napisano w innym komentarzu, n nie będzie „znacznie większy niż 3”, ale może n = 10 jest możliwe w razie potrzeby. Chociaż takie podejście gwarantuje, że mój przedział ufności nie przekroczy wartości 1,0, wydaje się, że znacznie nie docenia przedziału ufności podanego innymi metodami. W rzeczywistości nigdy nie będzie większy niż przedział [min, max].
koalo
Jak myślisz, jak często średnia będzie poza [min, max]?
soakley
Prawdopodobnie rzadko, ale czy to oznacza również, że jeśli przedział [min, maks.] Jest wystarczająco mały, aby udowodnić moje twierdzenia, mogę zapomnieć o przedziale ufności i podać tylko [min, maks.]? Z mojego doświadczenia wynika, że ​​dla małych rozmiarów próby przedział ufności jest dość duży w porównaniu do [min, maks.].
koalo
2

Dwumianowe przedziały ufności były od dawna przedmiotem debat statystycznych. Twój problem ma stosunek mniejszy niż 100%, ale staje się jeszcze bardziej problematyczny, jeśli użyjemy 100%. Jednym z wnikliwych sposobów zadania pytania jest:

Biorąc pod uwagę, że słońce wschodzi bez przerwy każdego dnia przez ostatnie 2000 lat, jakie jest prawdopodobieństwo, że wstanie jutro?

p=1

Istnieje wiele metod obliczania tych ogonów. Polecam sprawdzić matematykę w Wikipedii , a jeśli chcesz tylko znaleźć odpowiedź, wyszukaj dwumianowy kalkulator interwałów, taki jak ten (który akurat zawiera dodatkowe wyjaśnienie matematyki).

Tim
źródło
To jest bardzo blisko tego, czego szukam, ale formuły wydają się obliczać jedynie przedział ufności dla wyniku pojedynczego przebiegu mojego eksperymentu, a nie przedział ufności dla średniej z kilku eksperymentów.
koalo
Nie ma znaczenia, czy masz jeden przebieg, czy kilka przebiegów, o ile mianownik (w twoim przykładzie 100 pakietów) pozostaje taki sam we wszystkich przebiegach. Przeprowadzenie 3 eksperymentów po 100, każdy jest matematycznie taki sam, jak przeprowadzenie jednego eksperymentu z 300 pakietami, i możesz użyć wzorów dwumianowych, ale przy n = 300, a nie n = 100. Jeśli mianowniki nie są równe, musisz znaleźć średnią ważoną (ważoną przez n), a nowe n będzie sumą n's.
Zahava Kor
@ZahavaKor Ponieważ jest zbyt długi na komentarz, dodałem edycję do mojego pytania. Nie twierdzę, że to jest złe, ale nie pasuje do mojego obecnego zrozumienia.
koalo
2

Podejście bayesowskie:

BB

Neil G.
źródło
p=n/mp