Czy przewidywanie jest „złotym kryterium” do oceny zdolności statystycznych?

13

W zeszły weekend czytałem podręczniki modeli liniowych Faraway z R (1. edycja). Faraway miał rozdział zatytułowany „Strategia statystyczna i niepewność modelu”. Opisał (strona 158), że sztucznie wygenerowany niektóre dane przy użyciu bardzo skomplikowany model, a następnie poprosił swoich uczniów do modelowania danych i porównać studentów przewidywanych wyników vs odczytu wyników. Niestety, większość uczniów przeregulowała dane testowe i podała przewidywane wartości całkowicie poza wyznacznikiem. Aby wyjaśnić to zjawisko, napisał mi coś bardzo imponującego:

„Powodem, dla którego modele były tak różne, było to, że uczniowie stosowali różne metody w różnych rzędach. Niektórzy dokonali selekcji zmiennych przed transformacją, a inni odwrotnie. Niektórzy powtórzyli metodę po zmianie modelu, a inni nie. Omówiłem strategie że kilku uczniów wykorzystało i nie mogło znaleźć niczego wyraźnie niewłaściwego w tym, co zrobili. Jeden uczeń popełnił błąd przy obliczaniu swoich przewidywanych wartości, ale w pozostałej części nie było oczywiście nic złego. Wyniki w tym zadaniu nie wykazały jakikolwiek związek z tym na egzaminach.

Zostałem poinformowany, że dokładność prognoz modelu jest „złotym kryterium” dla nas, aby wybrać najlepszą wydajność modelu. Jeśli się nie mylę, jest to również popularna metoda stosowana w zawodach Kaggle. Ale tutaj Faraway zaobserwował coś innego, że wydajność prognozowania modelu nie może mieć nic wspólnegoze zdolnością zaangażowanego statystyka. Innymi słowy, to, czy możemy zbudować najlepszy model pod względem mocy predykcyjnej, nie jest tak naprawdę determinowane przez nasze doświadczenie. Zamiast tego determinuje go ogromna „niepewność modelu” (ślepe szczęście?). Moje pytanie brzmi: czy dotyczy to również analizy danych w prawdziwym życiu? A może myliłem się z czymś bardzo podstawowym? Ponieważ jeśli jest to prawdą, to implikacja dla analizy danych rzeczywistych jest ogromna: bez znajomości „prawdziwego modelu” kryjącego się za danymi, nie ma zasadniczej różnicy między pracą wykonaną przez doświadczonych / niedoświadczonych statystyk: oba są tylko dzikimi przypuszczeniami przed dostępne dane szkoleniowe.

Bombyx mori
źródło
2
+1 fajne pytanie. Aby zaoferować inną perspektywę, powiedzmy, że jedna z analityków zna prawdziwy tryb - wtedy jej przewidywania też mogą być złe! Więc nawet znając prawdziwy model, zobaczysz to. Ważna może być obserwacja Haggerty i Srivinasansa z 1991 r. W Psychometrice, że „praktyka [...] stwierdzania, że ​​model o wyższej dokładności predykcyjnej jest„ prawdziwszy ”, nie jest właściwym wnioskiem”.
Momo,
1
Nie patrzyłem jeszcze na książkę, ale „wybór zmiennych” i „transformacja” już dzwonią dzwonkami ostrzegawczymi. Zobacz Algorytmy automatycznego wyboru modelu i charakter relacji między predyktorami a zależnymi od regresji . Nie zrównałbym również wyników egzaminu studentów statystyki z rzeczywistymi umiejętnościami statystyków.
Scortchi - Przywróć Monikę
2
Informacje podane przez Farawaya wydają się okropnie anegdotyczne, ponieważ można je wykorzystać jako podstawę ogólnej zasady dotyczącej statystyki. Nie chciałbym budować modelu o modelowaniu predykcyjnym w oparciu o takie niepowtarzalne przykłady. Możliwe jest również, że zostali świadomie wybrani.
rolando2
3
Jednym z logicznie uzasadnionych wniosków, które można wyciągnąć z tej anegdoty, jest to, że żaden z uczniów Faraway nie (jeszcze) nabył umiejętności potrzebnych do dobrego wykonania testu prognostycznego. Trudno jest w ogóle powiązać ten wynik z twoimi spekulacjami na temat wydajności doświadczonych statystyk.
whuber
@whuber: Nie sądzę w ten sposób. Zgadzam się, że 28 uczniów jest trochę małych, ale myślę, że ta prawdziwa obserwacja ma poważne konsekwencje. Gdyby Faraway stworzył prawdziwy model i zajął się pracą kilku uczniów, nie mógł znaleźć poważnego błędu, ale prognozy są dalekie od tego, czym powinny być. To mówi coś o zaangażowanej „niepewności modelu”, że przynajmniej potrzeba pracy wykonanej przez osobnego analityka, aby porównać różnice, bez względu na to, jak „doświadczony” był pierwotny analityk. Myślę, że to mnie niepokoi.
Bombyx mori,

Odpowiedzi:

1

Zapytałem o to profesora w moim dziale. Powiedział szczerze, że wcale go to nie zaskoczyło. Zasugerował następujący sposób spojrzenia na to: to, co zrobił Faraway, było tylko jednorazowym eksperymentem i nie jest zaskakujące, że wyniki wydawały się nie mieć związku z końcowymi ocenami. Ale jeśli Faraway powtórzy swój „eksperyment” 100 razy z tą samą grupą uczniów, jest pewien, że uczniowie nauczyli się, że statystyki lepiej sprawdzą się, podobnie jak przedział ufności. Zatem jego zdaniem doświadczenie ma znaczenie, to tylko jednorazowy eksperyment społeczny nie mógł tego wykazać z powodu niepewności modelu.

Bombyx mori
źródło
Uważam tę wymówkę za zabawną. Myślę, że to jest powód, dla którego statystyki są zastępowane (lub przemianowane na „dane naukowe”). Ludzie zaczynają zdawać sobie sprawę, że statystyki w nauczaniu na uniwersytetach nie są zbyt dobre w prognozowaniu, a modele bez mocy predykcyjnej są bezużyteczne.
Flądrowiec
1
@Flounderer: Myślę, że to nie jest naprawdę wymówka, a to, co napisałeś, może nie być dobrze powiązane z tą sprawą. Przede wszystkim w prawdziwym życiu ma się zarówno zestaw testowy, jak i zestaw treningowy, w przeciwieństwie do przypadku Faraway'a dostępny jest tylko jeden zestaw treningowy. Po drugie, jeśli spojrzysz na model Faraway'a, jest on wysoce nieliniowy, tak że metody regresji nie działają zbyt dobrze. Dlatego wszystkie modele liniowe są tylko zgadywankami. Morał tego eksperymentu jest taki, że „wszystkie modele są błędne”, a nie „statystyki w nauczaniu na uniwersytetach nie są zbyt dobre w przewidywaniu”.
Bombyx mori,
@ Założyciel: Innymi słowy, uważam, że jeśli ja (lub ktokolwiek inny na forum) znajduję się na pozycji studenta Faraway dwadzieścia lat temu w obliczu tego dziwnego zestawu treningowego, raczej nie będziemy w stanie lepiej, używając tylko modeli liniowych. Nie wydaje mi się, żeby w ogóle było to związane z „statystyką nauczaną na uniwersytetach”.
Bombyx mori,
1

Modelki uczniów były prawie wszystkie w stroju. Przy n punktach danych zawsze można dopasować idealny wielomian rzędu n-1. Taki model jest opóźniony, nie pozostawiając nic przypadkowemu błędowi. Wygląda na to, że uczniowie popełnili podobne błędy nadmiernego wysiłku, ale prawdopodobnie z różnymi funkcjami.

Nadmierne dopasowanie to błąd, który powinni popełniać tylko studenci. A to sugeruje, że doświadczenie i wykształcenie są niezbędnymi kwalifikacjami do modelowania.

Jaz Alison
źródło
2
„Nadmierne dopasowanie to błąd, który powinni popełniać tylko studenci”, to dość wysoki standard do zniesienia. Modelowanie jest trudne. Może coś w rodzaju „Przeuczenie jest czymś, co modelarzy uczą się rozpoznawać i unikać poprzez doświadczenie i edukację” byłoby bliższe prawdy?
Matthew Drury,