Podejrzewam, że większość użytkowników narzędzi statystycznych to użytkownicy pomocniczy (ludzie, którzy nie mieli formalnego szkolenia statystycznego). Bardzo kuszące jest, aby badacze i inni profesjonaliści zastosowali metody statystyczne do swoich danych po prostu dlatego, że widzieli to „wcześniej” w recenzowanych artykułach, szarej literaturze, Internecie lub na konferencji. Jednak zrobienie tego bez jasnego zrozumienia wymaganych założeń i ograniczeń narzędzia statystycznego może prowadzić do błędnych wyników - błędy często nie są uznawane!
Uważam, że studenci studiów licencjackich (szczególnie w dziedzinie nauk społecznych i przyrodniczych) albo nie są świadomi pułapek statystycznych, albo uważają te pułapki za nieistotne (ta ostatnia jest najczęściej). Chociaż przykłady niewłaściwego użycia narzędzi statystycznych można znaleźć w wielu podręcznikach na poziomie wprowadzającym, w Internecie lub StackExchange, trudno mi znaleźć rzeczywiste przykłady, które przyniosły szkodliwe wyniki (np. Koszt w USD, wpływ na życie i utrata kariery) . W tym celu szukam rzeczywistych przykładów, które podkreślają niewłaściwe użycie metod statystycznych, dla których:
- stosowane metody statystyczne są zwykle objęte kursami statystyki wprowadzającej (tj. statystyki wnioskowania, regresje itp.)
- efekt końcowy miał kosztowne konsekwencje (utrata dolarów, wpływ na życie, zniszczenie kariery itp.)
- te dane są łatwo dostępne do użytku jako przykłady pracy w toku (celem jest, aby uczniowie pracują z rzeczywistych przykładów światowych, które miały realne konsekwencje światowe).
Jednym z niestatystycznych przykładów, które chciałbym przedstawić uczniom podczas omawiania znaczenia właściwego zdefiniowania jednostek w projekcie badawczym, jest „nieszczęście metryczne”, które doprowadziło do utraty satelity o wartości 125 milionów dolarów! Zwykle wywołuje to: -o czynnik od studentów i wydaje się mieć trwałe wrażenie (przynajmniej przez ich krótkie życie akademickie).
źródło
Odpowiedzi:
Nie jestem pewien co do dostępności danych, ale doskonałym (jeśli to właściwym słowem) przykładem złej statystyki jest badanie Harvard Nurses 'dotyczące skuteczności hormonalnej terapii zastępczej (HTZ) u kobiet w okresie menopauzy.
Jaki jest ogólny pomysł? Badanie pielęgniarek sugerowało, że HTZ była korzystna dla kobiet po menopauzie. Okazuje się, że wynik ten powstał, ponieważ grupa kontrolna bardzo różniła się od grupy leczonej i różnice te nie zostały uwzględnione w analizie. W kolejnych randomizowanych badaniach HTZ była powiązana z rakiem, zawałem serca, udarem i zakrzepami krwi. Po odpowiednich poprawkach badanie pielęgniarek ujawnia również te wzorce.
Nie mogę znaleźć szacunkowych danych na temat zgonów w USA związanych z HTZ, ale ich wielkość wynosiła dziesiątki tysięcy. Jeden artykuł łączy 1000 zgonów w Wielkiej Brytanii z HTZ.
Ten artykuł w czasopiśmie New York Times stanowi dobre tło statystyczne dla problemów związanych z zamieszaniem obecnych w badaniu.
W tym wydaniu American Journal of Epidemiology znajduje się dyskusja naukowa . Artykuły porównują wyniki badania obserwacyjnego pielęgniarek z badaniami kobiecej inicjatywy zdrowotnej na podstawie randomizowanych badań.
Istnieje również dyskusja (przez wiele tych samych osób) w numerze Biometrics Patrz w szczególności komentarz Freedmana i Petittiego [ wersja prepub ].
źródło
Wspaniałym historycznym przykładem jest publikacja z 1933 roku „ Triumfu przeciętności w biznesie” Horace'a Secrista . W tym czasie Secrist był ugruntowanym statystykiem, autorem podręcznika (ok. 1919 r., Pamiętam), dobrze związany z Amerykańskim Stowarzyszeniem Statystycznym i szefem grupy badań statystycznych na Northwestern University. On i jego pracownicy spędzili poprzednią dekadę na tworzeniu szeregów czasowych danych biznesowych, które są powielane i skrupulatnie analizowane w książce. Miał być ambitnym statystykiem jako szef kuchni .
Recenzja książki Harolda Hotellinga , która ukazała się w JASA później tego roku, wskazała, że Secrist zaledwie udokumentował setki przykładów regresji do średniej (podstawowy temat każdego dzisiejszego kursu statystyki wprowadzającej, punkt 1 pytania). Secrist sprzeciwił się opublikowanej odpowiedzi. Odpowiedź Hotelling na to jest klasyczna:
[JASA przeciwko 29 # 186, czerwiec 1934 r., S. 1] 199.]
Wygląda na to, że Secrist szybko zniknął ze sceny statystycznej wkrótce („zrujnowane kariery”, punkt nr 2 w pytaniu). Jego książka jest nadal dostępna. (Kilka lat temu uzyskałem ładną, czystą kopię, oczywiście mało przeczytaną, dzięki Pożyczce Międzybibliotecznej.) Można z niej wyodrębnić dowolną liczbę przykładowych zestawów danych (punkt # 3 pytania).
Steven Stigler opowiada tę historię w książce i artykule, Historia statystyki w 1933 roku .
źródło
Wydaje mi się, że pogląd Wired na krach na giełdzie w 2008 roku może być pouczającym przykładem. Nie mogę komentować, czy wnioski są prawidłowe, czy nie, ale pomysł użycia korelacji w stosunku do danych, które nie są reprezentatywną próbą, wydaje się być czymś, co może być odpowiednie do sugerowanych okoliczności. Jest również aktualny, więc może ich zainteresować.
źródło
Pomyślałem, że ta Ted Talk może Cię zainteresować:
źródło