Zapewniam wsparcie statystyczne dla departamentu zdrowia publicznego. Jak można sobie wyobrazić, regularnie gromadzimy wiele map. Dla mnie mapy są po prostu kolejnym rodzajem wizualizacji danych - przydatnym do sprawdzania danych, generowania i sprawdzania hipotez itp. Ale często nie śledzimy rzeczywistego modelowania i testowania hipotez .
Jak sobie z tym radzisz? Jak wygląda przepływ pracy zawierający wnioskowanie? Kto jest zaangażowany? Z jakich narzędzi korzystasz? Jak by to wyglądało idealnie , gdybyś miał swoją drogę?
Dzięki!
EDYTOWAĆ
Dla jasności jestem ciekawy różnych strategii przejścia od danych przestrzennych do formalnych, statystycznych testów hipotez na temat tego, co dzieje się na świecie. Załóżmy na przykład, że próbuję skierować kampanię edukacyjną w celu zwiększenia liczby testów na gruźlicę. Ja (osobiście) nakreśliłem przypadki gruźlicy na zmienne towarzyszące interesom (powiedzmy, medianę dochodu lub procent mieszkańców urodzonych za granicą) i spróbuję sprawdzić, czy istnieją jakieś wzorce.
Mogę znaleźć lub nie; ale ostatecznie zbudowałbym model do oszacowania związku między tymi zmiennymi towarzyszącymi a liczbą danych demograficznych. Jest to krytyczny krok ze względu na to, jak dobrzy ludzie są w znajdowaniu wzorców tam, gdzie ich nie ma, lub w znajdowaniu nieciekawych. Wiem, jak to zrobić sam, ale jestem ciekawy, jak różne instytucje instytucjonalizują to (jeśli w ogóle).
źródło
Odpowiedzi:
Bardzo interesujące pytanie!
Po pierwsze, twoje pytanie odnosi się do tego, co nazywam „eksploracją danych”, i uważam, że warto wyraźnie wyjaśnić problem, ponieważ niektórzy ludzie tutaj mogą go nie mieć: z dowolnym zestawem danych (nie musi być przestrzenny), aby osiągnąć statystycznie poprawny związek konwencja jest taka, że prawdopodobieństwo musi wynosić 95% lub więcej. Jeśli jednak wykonasz 20 testów, prawdopodobieństwo jest duże, że przynajmniej jeden z uzyskanych wyników „statystycznie poprawnych” wynika z czystej szansy. Więc jego złą praktyką jest bawienie się zestawem danych (w GIS byłoby to mapowaniem), aby wizualizować wiele możliwych zależności między zmiennymi, znaleźć interesującą i podłączyć statystyki i podać wynik, jakby to był jedyny test zrobili. Nadal możesz użyć wyniku, ale musisz wziąć pod uwagę liczbę wykonanych testów.
Czy to właśnie jeździłeś?
Wydaje się, że twoje pytanie dotyczy tego, jak ludzie formalizują unikanie tego problemu. Moja odpowiedź jest taka, że wspomniana opcja „wcale” jest powszechna. Statystycy medyczni (np. Moja dziewczyna) z mojego doświadczenia stosują znacznie wyższy poziom rygorystyczności w stosunku do tego rodzaju procesów niż w innych obszarach. Podejrzewam, że wszelkiego rodzaju mapowanie danych poza zdrowiem publicznym odbywa się bez jakiegokolwiek formalnego uwzględnienia problem z ślepym zastosowaniem formuł statystyk bez właściwego zrozumienia procesu. Przychodzi mi na myśl geologiczny przykład:
Przeczytałem artykuł recenzowany, w którym autorzy spojrzeli na to, w jaki sposób wydajność odwiertu (ilość wody, którą można przepompować) w powiązaniu z wpływami geologicznymi i przestrzennymi w Afryce, np. Grubość warstwy żwiru, która została wykopana przed uderzeniem skały dna. Pomysł polegał na pomocy wiertarkom wiertniczym, aby mogli oni wybrać najlepsze lokalizacje otworów wiertniczych. Autorzy rażąco wydobyli dane łącząc wszelkiego rodzaju zmienne, aby zobaczyć, które z nich uzyskały 95% poziom ufności i (zakładam, że) żaden z recenzentów nie zakwestionował poprawności wyników. Ich wnioski były zatem całkowicie niewiarygodne.
Mam nadzieję, że to interesujące
źródło