Model próbkowania danych crowdsourcowanych?

Pracuję nad otwartą aplikacją do badania zdrowia, planowaną do użycia w kraju rozwijającym się.

Podstawową ideą jest to, że wywiady ankietowe są crowdsourcingowe - są one wykonywane przez niezorganizowanych wolontariuszy, którzy przesyłają dane formularzy z wywiadów, które przeprowadzili za pomocą urządzeń mobilnych, a każdej ankiecie towarzyszą dane GPS z lokalizacji wywiadu.

Tradycyjne ankiety opracowane przez agencje rządowe są zwykle wdrażane przy użyciu standardowego modelu próbkowania - zwykle modelu próbkowania prawdopodobieństwa. Wymaga to dużo scentralizowanego planowania, które nie zawsze może być wykonane. (wspomniał o tym, aby umieścić moje pytanie we właściwym kontekście)

Możemy powiedzieć, że wolontariusz wprowadzi dogodne pobieranie próbek na swoim obszarze. Przeprowadzi wywiad z dowolną liczbą osób, do których może dotrzeć.

Podstawowym problemem jest: Jak zrozumieć i scharakteryzować ogólny model próbkowania tego systemu geodezyjnego? Czy istnieją jakieś metodologie lub złożone modele postępowania w takich przypadkach?

sampling al-Amjad Tawfiq Isstaif
źródło

Krótka odpowiedź: jest to próbka wygody. Nic nie możesz zrobić, aby to uzasadnić.

Nieco dłuższa odpowiedź: jesteś w tej samej łodzi, co wiele sieci społecznościowych, które przeprowadzają swoje wewnętrzne ankiety, nie mając pojęcia, kto odpowie na ankietę złożoną z jednego pytania, która pojawi się losowo na Facebooku lub Google + ... poza tym, że w przeciwieństwie do tych gigantów nie ma żadnych danych o tych, którzy nie odpowiedzieli. Społeczność ankietowa i badająca opinię publiczną zasadniczo nie podoba się ten rodzaj pracy, ponieważ wcale nie jest jasne, w jaki sposób wyniki tej mocno tendencyjnej próby można uogólnić na całą populację (jeśli w ogóle). Możesz podjąć próbę zmiany wagi zgodnie ze znanymi danymi demograficznymi, ale wtedy skończysz z różnicą wag od 1 dla osoby, która reprezentuje się tylko do 1 000 000 przypisanych do jedynego mężczyzny w wieku 70+ w populacji, który umie obsługiwać komputer (i zresztą prawdopodobnie nie jest reprezentatywny dla pozostałych 1 000 000 70+ mężczyzn).

Dodatkowe czytanie: „How Lie Lie With Statistics” otwiera rozdział poświęcony stronniczym próbkom. Jeśli potrafisz go przeczytać i nie płaczesz z frustracji na temat swojego przykładowego projektu, możesz przejść dalej. Jeśli polegasz na wolontariuszach, twoja próba będzie ukierunkowana na młode i miejskie populacje z lepszym dostępem do elektronicznych gadżetów. Podobnie, broszura „What is a Survey” opracowana przez Fritza Scheurena, byłego prezesa Amerykańskiego Stowarzyszenia Statystycznego, otwiera obraz Harry'ego Trumana, którego zwycięstwa nie można było przewidzieć przez uprzedzone techniki głosowania, które istniały w tym czasie.

Istnieją badania dotyczące trudno dostępnych populacji . Jednym z dobrze znanych projektów było badanie liczby zgonów spowodowanych nadmierną liczbą zgonów w Iraku, w których pobrano próbki z obszarów geograficznych, a na każdym obszarze miejscowy lekarz próbował uzyskać wywiad z każdego gospodarstwa domowego w bloku miasta. Wzrosła krytyka tego projektu, ale bez względu na to, jak bardzo był on kompromitujący, nadal miał komponent próbkujący. Zobacz artykuły w Lancet (jak zapewne wiesz, nie można zdobyć prestiżu w świecie medycznym) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 i http: //dx.doi .org / 10.1016 / S0140-6736 (06) 69491-9 .

StasK
źródło

(+1) Staś, czy jest tu coś zasadniczo innego niż pobieranie kwot ? Ciekawe, pobieżna lektura pytania sprawia, że wygląda to jak zmiana terminologii. Krótko mówiąc, jakie są główne krytyki badania próbek skupień w Iraku? Pamiętam, jak to zobaczyłem, kiedy po raz pierwszy się ukazał, i trochę o tym przeczytałem.

kardynał

Przypuszczam, że jedną różnicą jest to, że nie ma limitu na osobę ...;)

kardynał

Dziękuję Ci bardzo! Teraz dobrze rozumiem, zanim przeprojektuję ten pomysł!

al-Amjad Tawfiq Isstaif

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

StasK

Myślę, że wystąpiły problemy z niewielką liczbą klastrów, a jeden klaster zakończył się wartością odstającą, gdzie aktywność wojskowa była znacznie wyższa niż gdziekolwiek indziej w kraju. Dla mnie pierwszą rzeczą, na którą należy spojrzeć, będą wypowiedzi AAPOR i ASA na temat badania. Choć Lancet może być świetnym czasopismem medycznym, a John Hopkins, wielkim medykiem, węszący w autorytecie AAPOR i odmawiający im dokumentów metodologicznych był po prostu nieprofesjonalny.

StasK

Model próbkowania danych crowdsourcowanych?

Odpowiedzi: