To pytanie odnosi się do pracy Galit Shmueli „Wyjaśnić lub przewidzieć” .
W szczególności w sekcji 1.5 „Wyjaśnianie i przewidywanie są różne” profesor Shmueli pisze:
W modelowaniu objaśniającym nacisk kładziony jest na minimalizowanie stronniczości w celu uzyskania jak najdokładniejszej reprezentacji podstawowej teorii.
To mnie intrygowało za każdym razem, gdy czytam gazetę. W jakim sensie minimalizacja błędu systematycznego w szacunkach daje najdokładniejsze przedstawienie leżącej u podstaw teorii?
Widziałem też przemówienie profesora Shmueli tutaj , wygłoszone na JMP Discovery Summit 2017, i stwierdza:
... rzeczy, które są jak modele skurczowe, zespoły, nigdy ich nie zobaczysz. Ponieważ modele te z założenia wprowadzają odchylenie w celu zmniejszenia ogólnego odchylenia / wariancji. Dlatego ich tam nie będzie, nie ma to teoretycznego sensu. Dlaczego miałbyś specjalnie celować w swój model?
To tak naprawdę nie rzuca światła na moje pytanie, po prostu potwierdzając twierdzenie, którego nie rozumiem.
Jeśli teoria ma wiele parametrów i mamy mało danych do ich oszacowania, błąd oszacowania będzie zdominowany przez wariancję. Dlaczego niewłaściwe byłoby stosowanie procedury oceny tendencyjnej, takiej jak regresja kalenicy (skutkująca tendencyjnymi oszacowaniami mniejszej wariancji) w tej sytuacji?
źródło
Odpowiedzi:
To jest rzeczywiście świetne pytanie, które wymaga zapoznania się ze światem stosowania modeli statystycznych w badaniach ekonometrycznych i naukach społecznych (z tego, co widziałem, statystycy stosujący dane i eksploratorzy danych, którzy wykonują prace opisowe lub predykcyjne, zwykle nie zajmują się stronniczość tego formularza). Termin „stronniczość”, którego użyłem w artykule, jest tym, co ekonometrycy i naukowcy społeczni traktują jako poważne zagrożenie dla wnioskowania o przyczynowości na podstawie badań empirycznych. Odnosi się do różnicy między twoim modelem statystycznym a przyczynowym modelem teoretycznym, który leży u jego podstaw . Powiązanym terminem jest „specyfikacja modelu”, temat intensywnie nauczany w ekonometrii ze względu na znaczenie „prawidłowego określenia modelu regresji” (w odniesieniu do teorii), gdy celem jest wyjaśnienie przyczynowe. Widziećkrótki artykuł w Wikipedii na temat specyfikacji . Poważnym problemem związanym z błędną specyfikacją jest niepełna specyfikacja , zwana „pominięciem zmienności nastawionej” (OVB), w której pomija się zmienną objaśniającą z regresji, która powinna tam być (zgodnie z teorią) - jest to zmienna korelująca ze zmienną zależną i z co najmniej jedną ze zmiennych objaśniających. Zobacz ten schludny opis ), który wyjaśnia, jakie są implikacje tego rodzaju stronniczości. Z teoretycznego punktu widzenia OVB szkodzi twojej zdolności wnioskowania o przyczynowości na podstawie modelu.
W dodatku do mojego artykułu Wyjaśnić czy przewidzieć? istnieje przykład pokazujący, że nieokreślony („zły”) model może czasami mieć większą moc predykcyjną. Ale teraz mam nadzieję, że zrozumiecie, dlaczego stoi to w sprzeczności z celem „dobrego modelu przyczynowego wyjaśnienia”.
źródło