Wizualizacja do przepływu pracy wnioskowania

9

Zapewniam wsparcie statystyczne dla departamentu zdrowia publicznego. Jak można sobie wyobrazić, regularnie gromadzimy wiele map. Dla mnie mapy są po prostu kolejnym rodzajem wizualizacji danych - przydatnym do sprawdzania danych, generowania i sprawdzania hipotez itp. Ale często nie śledzimy rzeczywistego modelowania i testowania hipotez .

Jak sobie z tym radzisz? Jak wygląda przepływ pracy zawierający wnioskowanie? Kto jest zaangażowany? Z jakich narzędzi korzystasz? Jak by to wyglądało idealnie , gdybyś miał swoją drogę?

Dzięki!

EDYTOWAĆ

Dla jasności jestem ciekawy różnych strategii przejścia od danych przestrzennych do formalnych, statystycznych testów hipotez na temat tego, co dzieje się na świecie. Załóżmy na przykład, że próbuję skierować kampanię edukacyjną w celu zwiększenia liczby testów na gruźlicę. Ja (osobiście) nakreśliłem przypadki gruźlicy na zmienne towarzyszące interesom (powiedzmy, medianę dochodu lub procent mieszkańców urodzonych za granicą) i spróbuję sprawdzić, czy istnieją jakieś wzorce.

Mogę znaleźć lub nie; ale ostatecznie zbudowałbym model do oszacowania związku między tymi zmiennymi towarzyszącymi a liczbą danych demograficznych. Jest to krytyczny krok ze względu na to, jak dobrzy ludzie są w znajdowaniu wzorców tam, gdzie ich nie ma, lub w znajdowaniu nieciekawych. Wiem, jak to zrobić sam, ale jestem ciekawy, jak różne instytucje instytucjonalizują to (jeśli w ogóle).

Matt Parker
źródło
Świetne pytanie!
whuber
Czy mówisz, że potrzebujesz przepływu pracy, aby w przypadku wybuchu jakiejś choroby, w przypadku której dostępna jest ograniczona ilość szczepionek, musisz być w stanie wykazać, że optymalnie dystrybuujesz szczepionkę?
Kirk Kuykendall
Ogólnie interesuje mnie tylko to, w jaki sposób ludzie włączają wnioskowanie statystyczne do swoich procesów mapowania. To, co opisujesz, jest z pewnością jednym z możliwych scenariuszy, ale jest wiele innych i nawet nie jestem szczególnie zainteresowany odpowiedziami z epidemiologii.
Matt Parker

Odpowiedzi:

2

Bardzo interesujące pytanie!

Po pierwsze, twoje pytanie odnosi się do tego, co nazywam „eksploracją danych”, i uważam, że warto wyraźnie wyjaśnić problem, ponieważ niektórzy ludzie tutaj mogą go nie mieć: z dowolnym zestawem danych (nie musi być przestrzenny), aby osiągnąć statystycznie poprawny związek konwencja jest taka, że ​​prawdopodobieństwo musi wynosić 95% lub więcej. Jeśli jednak wykonasz 20 testów, prawdopodobieństwo jest duże, że przynajmniej jeden z uzyskanych wyników „statystycznie poprawnych” wynika z czystej szansy. Więc jego złą praktyką jest bawienie się zestawem danych (w GIS byłoby to mapowaniem), aby wizualizować wiele możliwych zależności między zmiennymi, znaleźć interesującą i podłączyć statystyki i podać wynik, jakby to był jedyny test zrobili. Nadal możesz użyć wyniku, ale musisz wziąć pod uwagę liczbę wykonanych testów.

Czy to właśnie jeździłeś?

Wydaje się, że twoje pytanie dotyczy tego, jak ludzie formalizują unikanie tego problemu. Moja odpowiedź jest taka, że ​​wspomniana opcja „wcale” jest powszechna. Statystycy medyczni (np. Moja dziewczyna) z mojego doświadczenia stosują znacznie wyższy poziom rygorystyczności w stosunku do tego rodzaju procesów niż w innych obszarach. Podejrzewam, że wszelkiego rodzaju mapowanie danych poza zdrowiem publicznym odbywa się bez jakiegokolwiek formalnego uwzględnienia problem z ślepym zastosowaniem formuł statystyk bez właściwego zrozumienia procesu. Przychodzi mi na myśl geologiczny przykład:

Przeczytałem artykuł recenzowany, w którym autorzy spojrzeli na to, w jaki sposób wydajność odwiertu (ilość wody, którą można przepompować) w powiązaniu z wpływami geologicznymi i przestrzennymi w Afryce, np. Grubość warstwy żwiru, która została wykopana przed uderzeniem skały dna. Pomysł polegał na pomocy wiertarkom wiertniczym, aby mogli oni wybrać najlepsze lokalizacje otworów wiertniczych. Autorzy rażąco wydobyli dane łącząc wszelkiego rodzaju zmienne, aby zobaczyć, które z nich uzyskały 95% poziom ufności i (zakładam, że) żaden z recenzentów nie zakwestionował poprawności wyników. Ich wnioski były zatem całkowicie niewiarygodne.

Mam nadzieję, że to interesujące

Trevesy
źródło
Czy możesz wyjaśnić nieco więcej, dlaczego opisany przez Ciebie artykuł jest niewiarygodny? Nie jest dla mnie oczywiste, dlaczego tak jest. Jeśli związek istnieje statystycznie, czy ma znaczenie, jakiego „modelu mentalnego” użyłeś do jego zidentyfikowania? Rozumiem, że to nie wyjaśnia mechanizmu, ale jest to osobna kwestia.
djq 30.01.11