Bayesian myśli o przeuczeniu

20

Poświęciłem dużo czasu na opracowanie metod i oprogramowania do walidacji modeli predykcyjnych w tradycyjnej dziedzinie statystyki częstokroć. Wprowadzając w życie więcej pomysłów bayesowskich i nauczając, dostrzegam kilka kluczowych różnic do przyjęcia. Po pierwsze, bayesowskie modelowanie predykcyjne prosi analityka o przemyślenie wcześniejszych dystrybucji, które można dostosować do cech kandydujących, a ci pierwsi przyciągną model do nich (tj. Uzyskają skurcz / karanie / regularyzację z różnymi wielkościami kar za różne cechy predykcyjne ). Po drugie, „prawdziwa” metoda bayesowska nie daje jednego modelu, ale otrzymuje się cały rozkład boczny dla prognozy.

Biorąc pod uwagę te cechy bayesowskie, co oznacza nadmierne dopasowanie? Czy powinniśmy to ocenić? Jeśli tak to jak? Skąd wiemy, kiedy model bayesowski jest niezawodny do użytku w terenie? Czy też jest to kwestia sporna, ponieważ tylny będzie nosił wszystkie niepewności niepewności, gdy użyjemy modelu, który opracowaliśmy do przewidywania?

Jak zmieniłoby się myślenie, gdybyśmy zmusili model Bayesa do destylacji do pojedynczej liczby, np. Średniej tylnej / trybu / mediany ryzyka?

Widzę tutaj podobne myślenie . Równoległą dyskusję można znaleźć tutaj .

Dalsze pytanie : jeśli jesteśmy w pełni Bayesianami i spędzamy trochę czasu na zastanawianiu się nad kwestiami priorytetowymi przed zobaczeniem danych, i dopasowujemy model, w którym prawdopodobieństwo danych zostało odpowiednio określone, jesteśmy zmuszeni do zadowolenia z naszego modelu w odniesieniu do nadmiernego dopasowania ? Czy też musimy robić to, co robimy w świecie częstych, w którym losowo wybrany podmiot można przewidzieć średnio dobrze, ale jeśli wybierzemy podmiot, który ma bardzo niską prognozę lub ten, który ma bardzo wysoką przewidywaną wartość, nastąpi regresja na myśli?

Frank Harrell
źródło
1
Patrz mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2
Tim
1
Andrew Gelman ma bardzo trafny artykuł na blogu na andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell

Odpowiedzi:

6

Mógłbym zacząć od stwierdzenia, że ​​model bayesowski nie może systematycznie zastępować (lub niedopasowywać) danych pochodzących z wcześniejszego rozkładu predykcyjnego, co stanowi podstawę procedury sprawdzania, czy oprogramowanie bayesowskie działa poprawnie przed zastosowaniem go do danych zebranych z świat.

Ale może zastąpić pojedynczy zestaw danych zaczerpnięty z wcześniejszego rozkładu predykcyjnego lub pojedynczy zestaw danych zebrany ze świata w tym sensie, że różne miary predykcyjne zastosowane do danych, na których się opierasz, wyglądają lepiej niż te same miary predykcyjne zastosowane do danych przyszłych, które są wygenerowane przez ten sam proces. Rozdział 6 bayesowskiej książki Richarda McElreatha poświęcony jest nadmiernemu dopasowaniu.

Nasilenie i częstość nadmiernego dopasowania mogą być zmniejszone przez dobrych aurorzy, szczególnie tych, którzy informują o skali efektu. Umieszczając znikające wcześniejsze prawdopodobieństwo na nieprawdopodobnie dużych wartościach, zniechęcasz tylną dystrybucję do nadmiernego ekscytowania jakimś idiosynkratycznym aspektem danych, na których się opierasz, co może sugerować nieprawdopodobnie duży efekt.

Najlepsze sposoby wykrywania nadmiernego dopasowania obejmują walidację krzyżową z pominięciem jednego, która może być aproksymowana z rozkładu tylnego, który w rzeczywistości nie pozostawia żadnych obserwacji poza zestawem warunkowania. Istnieje założenie, że żadna indywidualna „obserwacja” [*], na którą warunkujesz, nie ma zbyt dużego wpływu na rozkład tylny, ale założenie to można sprawdzić, oceniając wielkość oszacowania parametru kształtu w uogólnionym rozkładzie Pareto, który jest dopasowanie do ważonych wag próbkowania (które pochodzą z logarytmu prawdopodobieństwa obserwacji oszacowanej dla każdego losowania z rozkładu tylnego). Jeśli to założenie zostanie spełnione, możesz uzyskać miary predykcyjne dla każdej obserwacji, które są tak, jakby ta obserwacja została pominięta, widok tylny został wyciągnięty z pozostałych obserwacji, a tylny rozkład predykcyjny został skonstruowany dla pominiętej obserwacji. Jeśli cierpią twoje przewidywania dotyczące pominiętych obserwacji, to na początku twój model był zbyt dobry. Te pomysły są wdrażane w Pakiet loo dla R, który zawiera cytaty takie jak tu i tam .

Jeśli chodzi o destylację do pojedynczej liczby, lubię obliczać odsetek obserwacji, które mieszczą się w 50% przedziałach predykcyjnych. W zakresie, w jakim proporcja ta jest większa niż połowa, model jest zbyt dopasowany, chociaż potrzeba więcej niż kilku obserwacji, aby przeciąć hałas w funkcji wskaźnika włączenia. Do porównania różnych modeli (które mogą się nakładać) oczekiwana gęstość predykcyjna logarytmiczna (która jest obliczana przez loofunkcję w loopakiet) jest dobrym miernikiem (zaproponowanym przez IJ Good), ponieważ bierze pod uwagę możliwość, że bardziej elastyczny model może lepiej pasować do dostępnych danych niż mniej elastyczny model, ale oczekuje się, że pogorszy przyszłe dane. Ale te pomysły można zastosować do oczekiwania na jakąkolwiek miarę predykcyjną (która może być bardziej intuicyjna dla praktyków); zobacz E_loofunkcję w pakiecie loo .

[*] Musisz wybrać, co stanowi obserwację w modelu hierarchicznym. Na przykład, czy jesteś zainteresowany przewidywaniem nowego pacjenta lub nowego punktu czasowego dla istniejącego pacjenta? Możesz to zrobić w każdy sposób, ale ten pierwszy wymaga (ponownego) napisania funkcji prawdopodobieństwa w celu zintegrowania parametrów specyficznych dla pacjenta.

Ben Goodrich
źródło
2
Bardzo pouczający Ben. Bardzo dziękuję za poświęcenie czasu na szczegółowe udzielenie odpowiedzi. Aby odpowiedzieć na pytanie dotyczące zakresu, mam na myśli nowych pacjentów. Pozostaje mi ogólne pytanie filozoficzne, które dodałem na końcu pierwotnego pytania.
Frank Harrell
2
Myślę, że takie kontrole odzwierciedlają aspekty naszych wcześniejszych przekonań, że nie wykorzystaliśmy lub nie mogliśmy uwzględnić wcześniejszych dystrybucji, z których korzystaliśmy. Na przykład, w zasadzie powinieneś określać wspólny wcześniejszy PDF w stosunku do wszystkich parametrów, ale prawie zawsze istnieje wiele założeń, że jest to niezależne od tego a priori , nie dlatego, że naprawdę uważasz, że są one niezależne, ale tylko dlatego, że określasz wielowymiarowa struktura zależności jest bardzo trudna. Funkcje wielowymiarowe, takie jak predykcje, mogą pomóc ci stwierdzić po fakcie, czy dane wejściowe były wspólnie sensowne.
Ben Goodrich
Ma to ogromny sens i jest bardzo wnikliwe. Nadal mam trochę wątpliwości co do oceny dokładności predykcyjnej dla podmiotów „ekstremalnych”, tj. Tych z bardzo niskimi lub bardzo wysokimi przewidywanymi wartościami. [I dla Bayesa, który przewidział wartości. Czy są to osoby z przesuniętym rozkładem tylnym czy te z niskim / wysokim średnim tylnym?]
Frank Harrell
1
Inna myśl na ten temat: wydaje się, że w wielu sytuacjach praktykujący mają dość spójne i nie budzące kontrowersji przekonania na temat mianownika reguły Bayesa. Na przykład, jeśli ktoś ma tego lub innego raka, jaki jest jego rozkład czasu przeżycia bez uzależnienia od czegokolwiek innego? Ale trudniej i bardziej kontrowersyjnie jest określić licznik Reguły Bayesa, tak że jeśli zintegrujesz wszystkie parametry, pozostanie ci to, co uważasz za mianownik. Sprawdzanie predykcyjne (zarówno przed, jak i z tyłu) jest swego rodzaju sposobem na wyrównanie licznika z mianownikiem reguły Bayesa.
Ben Goodrich,
1

Przeregulowanie oznacza, że ​​model działa dobrze na zestawie treningowym, ale słabo działa na zestawie testowym. IMHO pochodzi z dwóch źródeł: danych i modelu, którego używamy (lub naszej podmiotowości).

k

W rezultacie, jeśli jesteśmy częstymi, źródłem nadmiernego dopasowania jest MLE. Jeśli jesteśmy Bayesianami, wynika to z (subiektywnego) wyboru wcześniejszej dystrybucji (i oczywiście wyboru prawdopodobieństwa)). Tak więc, nawet jeśli użyjesz rozkładu tylnego / średniej / mediany, już od początku byłeś nadmiernie dopasowany, a to nadmierne dopasowanie jest kontynuowane. Właściwy wybór wcześniejszej dystrybucji i prawdopodobieństwa pomoże, ale nadal są to modele, nigdy nie można całkowicie uniknąć przeregulowania.

SiXUlm
źródło
Ignorując prawdopodobieństwo danych, które jest wspólne dla podejść częstych i bayesowskich, pomysł, że nadmierne dopasowanie wynika z wyboru przeora, jest wnikliwy. Oznacza to, że nie ma sposobu, aby sprawdzić, czy nie jest przeregulowany, ponieważ nie ma sposobu ani nie trzeba sprawdzać wcześniejszego, jeśli z wyprzedzeniem przeprowadziliśmy wszystkie nasze wstępne analizy danych. Ale wciąż mam wrażenie, że ekstremalne prognozy pokażą nadmierne dopasowanie (regresja do średniej). Przeora dotyczy parametrów, a nie skrajności danych.
Frank Harrell