Moje pytanie można by sformułować jako „jak ocenić błąd próbkowania przy użyciu dużych zbiorów danych”, szczególnie w przypadku publikacji w czasopiśmie. Oto przykład ilustrujący wyzwanie.
Z bardzo dużego zestawu danych (> 100 000 unikalnych pacjentów i ich przepisanych leków ze 100 szpitali) chciałem oszacować odsetek pacjentów przyjmujących określony lek. Uzyskanie tej proporcji jest proste. Jego przedział ufności (np. Parametryczny lub bootstrap) jest niewiarygodnie ciasny / wąski, ponieważ n jest bardzo duży. Szczęśliwie jest mieć dużą próbkę, ale wciąż szukam sposobu oceny, prezentacji i / lub wizualizacji niektórych form prawdopodobieństwa błędu. Chociaż umieszczenie / wizualizacja przedziału ufności (np. 95% CI: .65878 - .65881) wydaje się nieprzydatne (jeśli nie wprowadzające w błąd), wydaje się również niemożliwe uniknięcie niektórych stwierdzeń dotyczących niepewności.
Proszę daj mi znać co myślisz. Byłbym wdzięczny za każdą literaturę na ten temat; sposoby uniknięcia nadmiernego zaufania do danych, nawet przy dużej wielkości próby.
Odpowiedzi:
Problem ten pojawił się również w niektórych moich badaniach (jako modelarz epidemii mam luksus tworzenia własnych zestawów danych, a przy wystarczająco dużych komputerach można je zasadniczo dowolnie zmieniać. Kilka uwag:
Głównym celem dużych zestawów danych jest dostarczenie dokładnych szacunków, więc nie sądzę, abyś musiał unikać tej precyzji. Ale musisz pamiętać, że nie możesz poprawić złych danych, po prostu gromadząc większe ilości złych danych.
źródło
Ten problem pojawił się w moich rękopisach.
1. Opcje raportowania: jeśli masz tylko jeden lub kilka elementów CI do zgłoszenia, raportowanie „(np. 95% CI: .65878 - .65881)” nie jest zbyt szczegółowe i podkreśla precyzję elementu CI. Jeśli jednak masz wiele elementów CI, ogólna instrukcja może być bardziej pomocna dla czytelnika. Na przykład zwykle zgłaszam coś takiego, że „przy tej wielkości próby margines błędu 95% dla każdej proporcji był mniejszy niż +/- .010”. Zazwyczaj coś takiego zgłaszam w Metodzie, w podpisie Tabeli lub Ryciny albo w obu.
2. Unikanie „nadmiernej pewności” nawet przy dużej wielkości próby: Przy próbie 100 000 centralne twierdzenie o limicie zapewni bezpieczeństwo podczas zgłaszania CI dla proporcji. Tak więc w opisanej sytuacji powinieneś być w porządku, chyba że istnieją inne naruszenia założeń, których nie jestem świadomy (np. Naruszone iid).
źródło
Nie zgłaszaj przedziałów ufności. Zamiast tego podaj dokładny rozmiar próbki i proporcje. Czytelnik będzie mógł obliczyć swoje CI w dowolny sposób.
źródło
Rozważ możliwość, że 100 różnych proporcji szpitali nie zbiegnie się do tej samej wartości średniej. Czy testowałeś wariancję między grupami? Jeśli istnieje mierzalna różnica między szpitalami, wówczas założenie, że próbki są generowane ze wspólnego rozkładu normalnego, nie jest obsługiwane i nie należy ich łączyć.
Jeśli jednak twoje dane rzeczywiście pochodzą z normalnie rozprowadzonej dużej próbki, nie znajdziesz użytecznych „stwierdzeń dotyczących niepewności” jako właściwości danych, ale po zastanowieniu się, dlaczego lub dlaczego statystyki nie powinny się generalizować - z powodu pewne nieodłączne uprzedzenia w kolekcji lub brak stacjonarności itp., na które powinieneś zwrócić uwagę.
źródło