Czy regularyzacja może być pomocna, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?

19

Czy regularyzacja może być pomocna, jeśli jesteśmy zainteresowani jedynie szacunkiem (i interpretacją) parametrów modelu, a nie prognozowaniem lub prognozowaniem?

Widzę, jak regularyzacja / walidacja krzyżowa jest niezwykle przydatna, jeśli Twoim celem jest dobre prognozowanie nowych danych. Ale co, jeśli robisz tradycyjną ekonomię, a wszystko, na czym ci zależy, to szacowanie ? Czy w tym kontekście przydatna może być również walidacja krzyżowa? Trudność konceptualna, z którą się zmagam, polega na tym, że możemy faktycznie obliczyć na danych testowych, ale nigdy nie możemy obliczyć ponieważ prawda z definicji nigdy nie jest przestrzegana. (Przyjmij, biorąc pod uwagę założenie, że istnieje nawet prawda , tzn. Że znamy rodzinę modeli, z których dane zostały wygenerowane).L ( Y , Y ) L ( β , β ) β ββL.(Y,Y^)L.(β,β^)ββ

Załóżmy, że Twoja strata to . Stawiasz czoła kompromisowi wariancji, prawda? Teoretycznie lepiej byłoby dokonać pewnej regulacji. Ale jak możesz wybrać parametr regularyzacji?L.(β,β^)=β-β^

Byłbym szczęśliwy widząc prosty numeryczny przykład modelu regresji liniowej ze współczynnikami β(β1,β2),,βk) , w którym funkcją straty badacza jest np. β-β^ , a nawet po prostu (β1-β^1)2) . Jak w praktyce można zastosować walidację krzyżową w celu poprawy oczekiwanej straty w tych przykładach?


Edycja : DJohnson wskazał mi https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , który jest istotny dla tego pytania. Piszą to autorzy

Techniki uczenia maszynowego ... zapewniają zdyscyplinowany sposób przewidywania Y^ który (i) korzysta z samych danych, aby zdecydować, w jaki sposób dokonać kompromisu wariancji odchylenia, oraz (ii) umożliwia wyszukiwanie w bardzo bogatym zestawie zmienne i formy funkcjonalne. Ale wszystko ma swoją cenę: należy zawsze pamiętać, że ponieważ są one dostrojone do Y^ , nie dają (bez wielu innych założeń) bardzo użytecznych gwarancji dla β^ .

Kolejny istotny artykuł, ponownie dzięki DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Ten artykuł dotyczy powyższego pytania:

Podstawowym wyzwaniem w stosowaniu gotowych metod uczenia maszynowego, takich jak drzewa regresji do problemu wnioskowania przyczynowego, jest to, że podejścia regularyzacyjne oparte na krzyżowej walidacji zwykle polegają na przestrzeganiu „prawdziwej prawdy”, to znaczy rzeczywistych wyników w próbce walidacji krzyżowej. Jeśli jednak naszym celem jest zminimalizowanie średniego błędu kwadratu efektów leczenia, napotkamy coś, co [11] nazywa „podstawowym problemem wnioskowania przyczynowego”: efekt przyczynowy nie jest obserwowany dla żadnej pojedynczej jednostki, więc nie bezpośrednio mieć podstawową prawdę. Zajmujemy się tym, proponując podejścia do konstruowania obiektywnych szacunków błędu średniej kwadratowej skutku przyczynowego leczenia.

Adrian
źródło
2
Walidacja krzyżowa jest tylko jedną metodą w zestawach narzędzi do eksploracji danych i uczenia maszynowego. ML widzi rosnące wykorzystanie ekonomii - patrz strona Susan ATHEY jest w Stanford (ona naukowiec zainteresowany integracją technik ML w ekonomii) lub dokument ten Info Problemy Polityki przez Kleinberg, et al, w ungated wersja tutaj. Cs. cornell.edu/home/kleinber/aer15-prediction.pdf
Mike Hunter
9
Proszę, ludzie, jednoznacznie: ML wielu sugeruje uczenie maszynowe, a wielu innym sugeruje maksymalne prawdopodobieństwo. (Definicja: jesteś po stronie uczenia maszynowego, jeśli ML automatycznie przekłada się na ciebie jako uczenie maszynowe.)
Nick Cox
3
@Aksakal z mojego doświadczenia wynika, że ​​tradycyjna ekonometria, której uczą zarówno studenci studiów licencjackich, jak i absolwentów, zasadniczo nie zwraca uwagi na walidację krzyżową. Spójrz na Hayashi, który jest klasycznym podręcznikiem. Pewnie, być może wzajemna walidacja i kompromis wariancji są wymienione w kursie dotyczącym prognozowania, ale nie w kursie podstawowym, od którego zaczynają wszyscy studenci. Czy to ci odpowiada?
Adrian
2
@Adrian Widzę, że ludzie głosują, by zamknąć to pytanie jako zbyt ogólne. Być może tak jest, ale widzę, że w zasadzie pytasz: „Czy CV może być pomocne, jeśli interesuje nas tylko modelowanie, a nie prognozowanie?” - jeśli dobrze cię rozumiem, twoje pytanie można łatwo edytować i uprościć, dzięki czemu jest bardziej przejrzyste i na pewno niezbyt szerokie (nawet interesujące!).
Tim
2
@Adrian, więc jest to bardzo interesujące pytanie! Obawiam się, że uczyniłeś to zbyt skomplikowanym, a odniesienie do ekonometrii nie jest tutaj kluczowe (ponieważ jest tak samo w przypadku innych dziedzin, w których stosowane są metody statystyczne). Zachęcam do edytowania pytania w celu uproszczenia.
Tim

Odpowiedzi:

2

Tak, gdy chcemy stronnicze oszacowania niskiej wariancji. Szczególnie podoba mi się tutaj post Gunga. Jaki problem rozwiązują metody skurczu? Pozwól mi wkleić tutaj figurkę Gunga ...

wprowadź opis zdjęcia tutaj Jeśli sprawdzisz wykonany działka, zrozumiesz, dlaczego potrzebujemy regularyzacji / skurczu. Na początku czuję się dziwnie, dlaczego potrzebujemy stronniczych szacunków? Uświadomiłem sobie jednak, że patrząc na tę liczbę, model o niskiej wariancji ma wiele zalet: na przykład jest bardziej „stabilny” w zastosowaniu produkcyjnym.

Haitao Du
źródło
Tak, ale jak wybrać parametr regularyzacji? Gdy celem jest zminimalizowanie błędu prognozowania, możemy użyć zestawu sprawdzania poprawności. Jak korzystać z zestawu sprawdzania poprawności, jeśli nigdy nie obserwujemy prawdziwych parametrów modelu?
Adrian
Zobacz cytat o „podstawowym problemie wnioskowania przyczynowego” u dołu mojego pytania.
Adrian
1

Czy walidacja krzyżowa może być pomocna, jeśli interesuje nas tylko modelowanie (tj. Szacowanie parametrów), a nie prognozowanie?

Tak, może. Na przykład, innego dnia korzystałem z oszacowania ważności parametrów za pośrednictwem drzew decyzyjnych. Za każdym razem, gdy buduję drzewo, sprawdzam błąd weryfikacji krzyżowej. Staram się maksymalnie zmniejszyć błąd, a następnie przejdę do następnego kroku oceny ważności parametrów. Możliwe, że jeśli pierwsze drzewo, które zbudujesz, będzie bardzo złe i nie sprawdzisz błędu, otrzymasz mniej dokładne (jeśli nie złe) odpowiedzi.

Uważam, że głównym powodem jest duża liczba zmiennych kontrolnych, które ma każda technika. Nawet niewielka zmiana jednej zmiennej kontrolnej zapewni inny wynik.

Jak ulepszyć swój model po sprawdzeniu błędu weryfikacji krzyżowej? To zależy od twojego modelu. Mam nadzieję, że po kilku próbach uzyskasz pojęcie o najważniejszych zmiennych kontrolnych i możesz nimi manipulować, aby znaleźć niski błąd.

PeyM87
źródło