Czy regresje z błędami ucznia są bezużyteczne?

10

Proszę zobaczyć edycję.

Gdy masz dane z dużymi ogonami, regresja z błędami uczniów wydaje się intuicyjna. Badając tę ​​możliwość, natknąłem się na ten artykuł:

Breusch, TS, Robertson, JC i Welsh, AH (01 listopada 1997). Nowe szaty cesarza: krytyka modelu regresji wielowymiarowej. Statistica Neerlandica, 51, 3.) ( link , pdf )

Co dowodzi, że parametru skali i parametru stopni swobody nie można w pewnym sensie zidentyfikować względem siebie i że z tego powodu regresja z błędami t nie robi nic poza tym, co robi standardowa regresja liniowa.

Zellner (1976) zaproponował model regresji, w którym wektor danych (lub wektor błędów) jest reprezentowany jako realizacja z wielowymiarowego rozkładu t Studenta. Model ten cieszył się dużym zainteresowaniem, ponieważ wydaje się, że rozszerza zwykłe założenie Gaussa, aby umożliwić stosowanie bardziej precyzyjnych rozkładów błędów. Szereg wyników w literaturze wskazuje, że standardowe procedury wnioskowania dla modelu Gaussa pozostają właściwe przy szerszym założeniu dystrybucyjnym, co prowadzi do twierdzenia o niezawodności standardowych metod. Pokazujemy, że chociaż matematycznie oba modele są różne, do celów wnioskowania statystycznego są nierozróżnialne. Empiryczne implikacje wielowymiarowego modelu t są dokładnie takie same jak w przypadku modelu Gaussa. Stąd sugestia szerszej dystrybucji danych jest fałszywa, a twierdzenia o solidności wprowadzają w błąd. Wnioski te wyciąga się zarówno z perspektywy częstych, jak i bayesowskich.

To mnie zaskakuje.

Nie mam matematycznego wyrafinowania, aby dobrze ocenić ich argumenty, więc mam kilka pytań: Czy to prawda, że ​​regresje z błędami T nie są ogólnie przydatne? Jeśli czasem są przydatne, czy nie zrozumiałem papieru, czy może to wprowadzać w błąd? Jeśli nie są przydatne, czy jest to dobrze znany fakt? Czy istnieją inne sposoby rozliczania danych za pomocą ciężkich ogonów?

Edycja : Po bliższym przeczytaniu paragrafu 3 i sekcji 4 wygląda na to, że poniższy artykuł nie mówi o tym, o czym myślałem jako o regresji t-studenta (błędy są niezależnymi rozkładami jednowymiarowymi t). Błędy są pobierane z jednej dystrybucji i nie są niezależne. Jeśli dobrze rozumiem, ten brak niezależności dokładnie wyjaśnia, dlaczego nie można samodzielnie oszacować skali i stopni swobody.

Wydaje mi się, że ten artykuł zawiera listę artykułów, których należy unikać.

John Salvatier
źródło
jesteś pewien, że możesz rozpowszechniać papier za pośrednictwem skrzynki dropbox. lepiej podwójna kontrola.
Toby El Tejedor
myślę, że dystrybucja laplace daje do pewnego stopnia możliwość leczenia ciężkich ogonów.
Toby El Tejedor

Odpowiedzi:

5

Twoja edycja jest poprawna. Wyniki przedstawione w pracy dotyczą tylko błędów wielowymiarowych-t. Jeśli używasz niezależnych błędów t, jesteś bezpieczny.

Nie sądzę, że ten papier jest dobrze znany, ale myślę, że jest poprawny.

Literatura statystyczna jest pełna „uogólnień”, które w wielu przypadkach są albo reparametryzacjami, przekształceniami jeden do jednego, albo czasami są bezużyteczne, ponieważ nie przyczyniają się znacząco do uogólnienia niektórych właściwości danego modelu.


źródło