Jakie zalety oferują „wewnętrznie uczone resztki” w porównaniu z surowymi szacowanymi resztkami pod względem diagnozowania potencjalnych wpływowych punktów danych?
10
Powodem, dla którego o to pytam, jest to, że wydaje się, że wewnętrznie uczone reszty wydają się mieć ten sam wzór, co surowe szacunkowe reszty. Byłoby wspaniale, gdyby ktoś mógł wyjaśnić.
Różnice definicyjne między dwoma różnymi typami reszt (jak również resztkami zewnętrznymi studentami) są dla mnie jasne. W praktyce jednak nie sądzę, że spotkałem się z przypadkami (przynajmniej z własnymi danymi), w których resztki uczone wewnętrznie mają wyraźny wzorzec w porównaniu z resztami szacowanymi. Z drugiej strony, resztki uczone zewnętrznie mogą potencjalnie wykazywać inny wzór niż resztki szacunkowe. * Nie twierdzę, że dwa rodzaje reszt są takie same. Mam na myśli ich ogólne wzorce.
@AlexH. Zgadzam się, że deklarowana przeze mnie korzyść jest teoretyczna . Dobrym uzupełnieniem byłoby stworzenie symulowanej sytuacji empirycznej, w której surowe reszty wprowadzają w błąd, a reszty studenckie zapewniają dokładniejszy obraz rozkładów warunkowych.
caracal
12
Na jakich typach danych przeprowadzałeś swoje wykresy testowe? Kiedy wszystkie założenia się utrzymują (lub zbliżają się), nie spodziewałbym się dużej różnicy między resztami surowymi i studenckimi, główną zaletą jest to, że istnieją wysoce wpływowe punkty. Rozważ te (symulowane) dane, które mają pozytywny trend liniowy i wysoce wpływową wartość odstającą:
Oto wykres dopasowanych wartości w porównaniu do surowych reszt:
Zauważ, że wartość reszty naszego wpływowego punktu jest bliższa 0 niż minimalna i maksymalna reszta z pozostałych punktów (nie jest to w 3 najbardziej ekstremalnych surowych resztach).
Teraz jest wykres ze znormalizowanymi (wewnętrznie studentizowanymi) resztami:
Na tym wykresie znormalizowana pozostałość wyróżnia się, ponieważ uwzględniono jej wpływ.
Na jakich typach danych przeprowadzałeś swoje wykresy testowe? Kiedy wszystkie założenia się utrzymują (lub zbliżają się), nie spodziewałbym się dużej różnicy między resztami surowymi i studenckimi, główną zaletą jest to, że istnieją wysoce wpływowe punkty. Rozważ te (symulowane) dane, które mają pozytywny trend liniowy i wysoce wpływową wartość odstającą:
Oto wykres dopasowanych wartości w porównaniu do surowych reszt:
Zauważ, że wartość reszty naszego wpływowego punktu jest bliższa 0 niż minimalna i maksymalna reszta z pozostałych punktów (nie jest to w 3 najbardziej ekstremalnych surowych resztach).
Teraz jest wykres ze znormalizowanymi (wewnętrznie studentizowanymi) resztami:
Na tym wykresie znormalizowana pozostałość wyróżnia się, ponieważ uwzględniono jej wpływ.
źródło