W tym poście na blogu Andrew Gelmana znajduje się następujący fragment:
Modele bayesowskie sprzed 50 lat wydają się beznadziejnie proste (z wyjątkiem, oczywiście, prostych problemów) i spodziewam się, że modele bayesowskie będą wydawać się beznadziejnie proste, za 50 lat. (Dla prostego przykładu: prawdopodobnie powinniśmy rutynowo używać t zamiast zwykłych błędów prawie wszędzie, ale jeszcze tego nie robimy, ze względu na znajomość, nawyk i matematyczną wygodę. Mogą to być dobre powody - w nauce jako w polityce konserwatyzm ma wiele dobrych argumentów na swoją korzyść - ale myślę, że ostatecznie, gdy poczujemy się komfortowo dzięki bardziej skomplikowanym modelom, pójdziemy w tym kierunku).
Dlaczego powinniśmy „rutynowo używać t zamiast zwykłych błędów prawie wszędzie”?
d know that the model proposed isn
wystarczająco dobrzy.Nie chodzi tylko o „cięższe ogony” - istnieje wiele dystrybucji, które mają kształt dzwonu i mają ciężkie ogony.
Rozkład T jest tylną predykcją modelu Gaussa. Jeśli przyjmiesz założenie Gaussa, ale masz skończone dowody, to wynikowy model koniecznie tworzy niecentralnie skalowane przewidywania o rozkładzie t. W granicy, gdy ilość dowodów, które posiadasz, dochodzi do nieskończoności, kończysz się przewidywaniami Gaussa, ponieważ granica rozkładu t jest Gaussa.
Dlaczego to się dzieje? Ponieważ przy skończonej ilości dowodów parametry twojego modelu są niepewne. W przypadku modelu Gaussa niepewność w średniej zwiększyłaby jedynie wariancję (tj. Tylna predykcja Gaussa o znanej wariancji jest nadal Gaussa). Ale niepewność co do wariancji powoduje ciężkie ogony. Jeśli model jest trenowany z nieograniczoną liczbą dowodów, nie ma już żadnej niepewności co do wariancji (lub średniej) i możesz użyć swojego modelu do prognozowania Gaussa.
Ten argument dotyczy modelu Gaussa. Dotyczy to również wywnioskowanego parametru, którego prawdopodobieństwa są gaussowskie. Biorąc pod uwagę dane skończone, niepewność dotycząca parametru jest rozkładem-t. Wszędzie tam, gdzie istnieją założenia normalne (z nieznaną średnią i wariancją) oraz dane skończone, istnieją predykcje z tyłu rozkładające się na t.
Istnieją podobne tylne rozkłady predykcyjne dla wszystkich modeli bayesowskich. Gelman sugeruje, że powinniśmy ich używać. Jego obawy złagodzą wystarczające dowody.
źródło