Przykłady kosztownych konsekwencji niewłaściwego użycia narzędzi statystycznych

12

Podejrzewam, że większość użytkowników narzędzi statystycznych to użytkownicy pomocniczy (ludzie, którzy nie mieli formalnego szkolenia statystycznego). Bardzo kuszące jest, aby badacze i inni profesjonaliści zastosowali metody statystyczne do swoich danych po prostu dlatego, że widzieli to „wcześniej” w recenzowanych artykułach, szarej literaturze, Internecie lub na konferencji. Jednak zrobienie tego bez jasnego zrozumienia wymaganych założeń i ograniczeń narzędzia statystycznego może prowadzić do błędnych wyników - błędy często nie są uznawane!

Uważam, że studenci studiów licencjackich (szczególnie w dziedzinie nauk społecznych i przyrodniczych) albo nie są świadomi pułapek statystycznych, albo uważają te pułapki za nieistotne (ta ostatnia jest najczęściej). Chociaż przykłady niewłaściwego użycia narzędzi statystycznych można znaleźć w wielu podręcznikach na poziomie wprowadzającym, w Internecie lub StackExchange, trudno mi znaleźć rzeczywiste przykłady, które przyniosły szkodliwe wyniki (np. Koszt w USD, wpływ na życie i utrata kariery) . W tym celu szukam rzeczywistych przykładów, które podkreślają niewłaściwe użycie metod statystycznych, dla których:

  1. stosowane metody statystyczne są zwykle objęte kursami statystyki wprowadzającej (tj. statystyki wnioskowania, regresje itp.)
  2. efekt końcowy miał kosztowne konsekwencje (utrata dolarów, wpływ na życie, zniszczenie kariery itp.)
  3. te dane są łatwo dostępne do użytku jako przykłady pracy w toku (celem jest, aby uczniowie pracują z rzeczywistych przykładów światowych, które miały realne konsekwencje światowe).

Jednym z niestatystycznych przykładów, które chciałbym przedstawić uczniom podczas omawiania znaczenia właściwego zdefiniowania jednostek w projekcie badawczym, jest „nieszczęście metryczne”, które doprowadziło do utraty satelity o wartości 125 milionów dolarów! Zwykle wywołuje to: -o czynnik od studentów i wydaje się mieć trwałe wrażenie (przynajmniej przez ich krótkie życie akademickie).

MannyG
źródło
2
Kolejny niestatystyczny przykład Edwarda Tufte, Powerpoint robi Rocket Science . Chociaż jest to nieco ściślej związane z logicznym przejściem od myślenia statystycznego w ogóle, niż wspomniana wpadka metryczna. Czy znasz również tę książkę, Kult znaczenia statystycznego ?
Andy W,
@AndyW, nie jestem zaznajomiony z „Kultem znaczenia statystycznego”. Czy wiesz, czy elementy 2 / i 3 / w moim pytaniu są omówione w tej książce?
MannyG,
Nie wiem o 3, ale jeśli przeczytasz recenzję książki, którą z nią powiązałem, odpowiedziałbym na twoje pytanie 2 (lub przeczytałem pozostały tytuł książki!) Rzeczywiście, cała książka ma dotyczyć twojego pytania nr 2 w odniesieniu interpretować testy istotności.
Andy W
@AndyW to jest właśnie ta książka, o której chciałem wspomnieć.
Peter Flom - Przywróć Monikę
@AndyW, mimo że link do recenzji odwołuje się do jednego z rzeczywistych przykładów niewłaściwego użycia statystyk w książce, nie jest dla mnie jasne, czy koszty wynikowe zostaną rozwiązane. Jeśli w książce omówiono koszty wtórne, czy są one oparte na niezależnych analizach lub obiektywnej opinii autorów?
MannyG,

Odpowiedzi:

8

Nie jestem pewien co do dostępności danych, ale doskonałym (jeśli to właściwym słowem) przykładem złej statystyki jest badanie Harvard Nurses 'dotyczące skuteczności hormonalnej terapii zastępczej (HTZ) u kobiet w okresie menopauzy.

Jaki jest ogólny pomysł? Badanie pielęgniarek sugerowało, że HTZ była korzystna dla kobiet po menopauzie. Okazuje się, że wynik ten powstał, ponieważ grupa kontrolna bardzo różniła się od grupy leczonej i różnice te nie zostały uwzględnione w analizie. W kolejnych randomizowanych badaniach HTZ była powiązana z rakiem, zawałem serca, udarem i zakrzepami krwi. Po odpowiednich poprawkach badanie pielęgniarek ujawnia również te wzorce.

Nie mogę znaleźć szacunkowych danych na temat zgonów w USA związanych z HTZ, ale ich wielkość wynosiła dziesiątki tysięcy. Jeden artykuł łączy 1000 zgonów w Wielkiej Brytanii z HTZ.

Ten artykuł w czasopiśmie New York Times stanowi dobre tło statystyczne dla problemów związanych z zamieszaniem obecnych w badaniu.

W tym wydaniu American Journal of Epidemiology znajduje się dyskusja naukowa . Artykuły porównują wyniki badania obserwacyjnego pielęgniarek z badaniami kobiecej inicjatywy zdrowotnej na podstawie randomizowanych badań.

Istnieje również dyskusja (przez wiele tych samych osób) w numerze Biometrics Patrz w szczególności komentarz Freedmana i Petittiego [ wersja prepub ].

Charlie
źródło
1
Argumentowałbym przeciwko użyciu tego przykładu. Od 2005 r. Jest więcej pracy, szczególnie autorstwa Miguela Hernana, patrz Badania obserwacyjne analizowane jak eksperymenty losowe: zastosowanie w terapii hormonalnej po menopauzie i chorobie wieńcowej , epidemiologii (2008). Wniosek: „Podsumowując, nasze ustalenia sugerują, że rozbieżności między szacunkami WHI i NHS ITT można w dużej mierze wytłumaczyć różnicami w rozkładzie czasu od menopauzy i długości okresu obserwacji. Pozostałego zamieszania dla efektu rozpoczęcia terapii w NHS wydaje się odgrywać niewielką rolę ”.
Fomite,
Niezależnie od tego, co sądzi o wspomnianych badaniach, różnice między nimi są trudniejsze i bardziej skomplikowane niż to, co prawdopodobnie jest przydatne w proponowanym ustawieniu PO.
Fomite,
@EpiGrad, To z pewnością nie moja dziedzina i jestem pewien, że wiesz więcej o tym konkretnym przykładzie niż ja. Ale myślę, że cytowany przez ciebie papier ma sens, że robią to inne. W pracy OSALRE wyrzucają kobiety z badania NHS, które nie spełniają kryteriów badania WHI. Odsetek odrzuconych kobiet musi być różny w różnych grupach leczenia i kontroli NHS (w przeciwnym razie wyniki nie ulegną zmianie). W ten sposób rozwiązują problem selekcji znaleziony w badaniu NHS. [[Ciąg dalszy]]
Charlie,
1
Artykuł, który mi się podobał, sugeruje, przynajmniej dla mnie, coś w rodzaju „Upewnij się, że zadajesz to samo pytanie”, a nie problem z całkowitym zakłopotaniem. Nie zrozumcie mnie źle, kwestia NHS / WHI jest niezwykle interesująca jako pytanie statystyczne i dotyczące praktyki zdrowia publicznego. Jest to po prostu bardziej skomplikowane niż początkowe spory wydają się sugerować, i myślę, że to czyni go nieco nieodpowiednim dla punktu 1 wniosku PO. Punkt 3 jest również natychmiastowy.
Fomite,
2
@EpiGrad, wystarczy. Ale poważnie wątpię, że znajdziesz badanie, które ma rażący błąd statystyczny, który nie wymaga odgłębiania się, aby zrozumieć, że miało szeroko rozpowszechnione, poważne konsekwencje. Być może inni respondenci zabiją mój optymizm badaczy (heh).
Charlie,
8

Wspaniałym historycznym przykładem jest publikacja z 1933 roku „ Triumfu przeciętności w biznesie” Horace'a Secrista . W tym czasie Secrist był ugruntowanym statystykiem, autorem podręcznika (ok. 1919 r., Pamiętam), dobrze związany z Amerykańskim Stowarzyszeniem Statystycznym i szefem grupy badań statystycznych na Northwestern University. On i jego pracownicy spędzili poprzednią dekadę na tworzeniu szeregów czasowych danych biznesowych, które są powielane i skrupulatnie analizowane w książce. Miał być ambitnym statystykiem jako szef kuchni .

Recenzja książki Harolda Hotellinga , która ukazała się w JASA później tego roku, wskazała, że ​​Secrist zaledwie udokumentował setki przykładów regresji do średniej (podstawowy temat każdego dzisiejszego kursu statystyki wprowadzającej, punkt 1 pytania). Secrist sprzeciwił się opublikowanej odpowiedzi. Odpowiedź Hotelling na to jest klasyczna:

„Udowodnienie” takiego wyniku matematycznego kosztownym i długotrwałym badaniem numerycznym ... jest analogiczne do udowodnienia tablicy mnożenia przez ułożenie słoni w rzędach i kolumnach, a następnie uczynienie tego samego dla wielu innych gatunków zwierząt. Przedstawienie, choć być może zabawne i mające pewną wartość pedagogiczną, nie stanowi istotnego wkładu ani w zoologię, ani w matematykę.

[JASA przeciwko 29 # 186, czerwiec 1934 r., S. 1] 199.]

Wygląda na to, że Secrist szybko zniknął ze sceny statystycznej wkrótce („zrujnowane kariery”, punkt nr 2 w pytaniu). Jego książka jest nadal dostępna. (Kilka lat temu uzyskałem ładną, czystą kopię, oczywiście mało przeczytaną, dzięki Pożyczce Międzybibliotecznej.) Można z niej wyodrębnić dowolną liczbę przykładowych zestawów danych (punkt # 3 pytania).

Steven Stigler opowiada tę historię w książce i artykule, Historia statystyki w 1933 roku .

whuber
źródło
4

Wydaje mi się, że pogląd Wired na krach na giełdzie w 2008 roku może być pouczającym przykładem. Nie mogę komentować, czy wnioski są prawidłowe, czy nie, ale pomysł użycia korelacji w stosunku do danych, które nie są reprezentatywną próbą, wydaje się być czymś, co może być odpowiednie do sugerowanych okoliczności. Jest również aktualny, więc może ich zainteresować.

John Doucette
źródło