Badano losową próbę populacji. Zapytano ich, czy jedzą dietę wegetariańską. Jeśli odpowiedzieli „tak”, poproszono ich również o określenie, jak długo bez przerwy je dietę wegetariańską. Chcę wykorzystać te dane do obliczenia średniej długości przestrzegania zasady wegetarianizmu. Innymi słowy, kiedy ktoś zostaje wegetarianinem, chcę wiedzieć, że średnio długo pozostaje wegetarianinem. Załóżmy, że:
- Wszyscy respondenci udzielili poprawnych i dokładnych odpowiedzi
- Świat jest stabilny: popularność wegetarianizmu nie zmienia się, średnia długość przylegania również się nie zmienia.
Moje dotychczasowe rozumowanie
Przydało mi się przeanalizować zabawkowy model świata, w którym na początku każdego roku dwie osoby stają się wegetarianami. Za każdym razem jeden z nich pozostaje wegetarianinem przez 1 rok, a drugi przez 3 lata. Oczywiście średnia długość przylegania na tym świecie wynosi (1 + 3) / 2 = 2 lata. Oto wykres ilustrujący przykład. Każdy prostokąt reprezentuje okres wegetarianizmu:
Załóżmy, że przeprowadzamy ankietę w połowie czwartego roku (czerwona linia). Otrzymujemy następujące dane:
Otrzymalibyśmy te same dane, gdybyśmy wzięli udział w ankiecie w dowolnym roku, począwszy od 3. roku. Jeśli tylko uśrednimy odpowiedzi, otrzymamy:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Nie doceniamy, ponieważ zakładamy, że wszyscy przestali być wegetarianami zaraz po badaniu, co jest oczywiście błędne. Aby uzyskać oszacowanie, które jest bliższe faktycznym średnim czasom, w których ci uczestnicy pozostaliby wegetarianami, możemy założyć, że średnio zgłosili czas około połowy okresu wegetarianizmu i pomnożyli czas trwania przez 2. W dużej ankiecie losowo losowanej z populacji (jak ta, którą analizuję), myślę, że jest to realistyczne założenie. Przynajmniej dałoby to prawidłową wartość oczekiwaną. Jeśli jednak podwajanie jest jedyną rzeczą, którą robimy, otrzymujemy średnią 2,5, co jest przeszacowane. Wynika to z faktu, że im dłużej osoba pozostaje wegetarianinem, tym bardziej prawdopodobne jest, że znajdzie się w próbce obecnych wegetarian.
Pomyślałem wtedy, że prawdopodobieństwo, że ktoś znajdzie się w próbie obecnych wegetarian, jest proporcjonalne do ich długości wegetarianizmu. Aby uwzględnić to uprzedzenie, próbowałem podzielić liczbę obecnych wegetarian przez ich przewidywaną długość przylegania:
Daje to jednak również niepoprawną średnią:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 lat
Dałoby to prawidłowe oszacowanie, gdyby liczba wegetarian była podzielona przez ich prawidłowe długości przylegania:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 lata
Ale to nie działa, jeśli użyję przewidywanych długości przylegania i to wszystko, co mam w rzeczywistości. Nie wiem co jeszcze spróbować. Przeczytałem trochę o analizie przeżycia, ale nie jestem pewien, jak ją zastosować w tym przypadku. Idealnie chciałbym również móc obliczyć 90% przedział ufności. Wszelkie wskazówki będą mile widziane.
EDYCJA: Możliwe, że na powyższe pytanie nie ma odpowiedzi. Ale było też inne badanie, w którym zapytano losową próbę ludzi, czy są / byli wegetarianami i ile razy byli wegetarianami w przeszłości. Znam także wiek wszystkich osób w obu badaniach i kilka innych rzeczy. Być może tę informację można wykorzystać w połączeniu z ankietą aktualnych wegetarian, aby jakoś to zrozumieć. W rzeczywistości badanie, o którym mówiłem, to tylko jedna część układanki, ale bardzo ważna i chcę z niej czerpać więcej.
źródło
Odpowiedzi:
Niech oznacza pdf długości przylegania X wegetarianizmu w populacji. Naszym celem jest oszacowanie E X = ∫ ∞ 0 x f X ( x ) d x .faX( x ) X miX= ∫∞0x fX( x ) dx
Zakładając, że prawdopodobieństwo włączenia do badania (zdarzenie ) jest proporcjonalne do X , pdf długości przylegania X wśród tych uwzględnionych w badaniu wynosi f X | S ( x ) = x f X ( x )S. X X
W momencie włączenia do badania, tylko czasemZminęło. Zależnie odX(iS), podawany czas wegetarianizmu jest jednolity z pdf
fZ| X=x(z)=1
Kod R symulujący dane i wdrażający obie metody:
źródło
(Mam dość dodawania tego, jak się wydaje, @JarleTufto podjął już dobre podejście matematyczne; nie jestem jednak wystarczająco sprytny, aby zrozumieć jego odpowiedź, a teraz jestem ciekawy, czy jest to dokładnie to samo, czy też podejście, które opisuję poniżej, ma swoje zastosowanie).
To, co bym zrobił, to odgadnięcie średniej długości i kilku rozkładów wokół niej, a następnie dla każdej z nich wykonaj symulację mojej populacji i regularnie ją pobieraj.
Powiedziałeś, że zakładasz, że całkowita populacja wegetarian się nie zmienia, więc za każdym razem, gdy mój model kogoś zatrzyma, powstaje zupełnie nowy wegetarianin. Musimy uruchomić model przez kilka symulowanych lat, aby upewnić się, że ustabilizował się, zanim zaczniemy próbkować. Po tym myślę, że możesz pobierać próbki co symulowany miesiąc (*), dopóki nie będziesz mieć wystarczająco dużo, aby uzyskać 90% przedział ufności.
*: lub jakakolwiek rozdzielczość działa z Twoimi danymi. Jeśli ludzie dali odpowiedź na najbliższy rok, pobieranie próbek co 6 miesięcy jest wystarczające.
Ze wszystkich domysłów wybierasz średnią i rozkład, który (uśredniony dla wszystkich pobranych próbek) daje ci wynik najbliższy temu, co dała twoja ankieta z prawdziwego życia.
Kilka razy powtarzałbym moje domysły, aby zawęzić wybór najlepszego meczu.
Najlepszy rozkład może nie być jednokołowy. Byli wegetarianie, o których osobiście mogę myśleć, że przestali z powodu poważnych zmian stylu życia (zazwyczaj małżeństwo / życie z nie-wegetarianinem, przeprowadzka lub kraj poważnie chory i lekarz sugerujący, że może to być dieta); z drugiej strony jest siła nawyku: im dłużej jesteś wegetarianinem, tym bardziej prawdopodobne jest, że będziesz nim nadal. Gdyby twoje dane pytały o wiek i status związku, moglibyśmy to również przedstawić w powyższej symulacji.
źródło