Co to jest korekta uprzedzeń? [Zamknięte]

12

Widziałem wiele miejsc, w których mają zestawy danych wejściowych / wyjściowych, w których najpierw tworzą linię regresji liniowej, korygują odchylenie, a następnie używają tych danych tylko w swoim modelu. Nie dostałem, co to jest korekta błędu?

użytkownik31820
źródło
6
Myślę, że może być konieczne podanie referencji lub wyraźnego przykładu, abyśmy mogli dokładnie wiedzieć, na co reagujesz.
whuber
@ naught101, zrób kilka naraz, nie spamuj strony głównej.
gung - Przywróć Monikę
@gung: ah .. masz na myśli kilka tagów, a następnie chwilę poczekać? Przepraszam za pozno. Znalazłem tylko około 10 i właśnie to zrobiłem. Zapomniałem o efekcie na pierwszej stronie: / Gdyby tylko SE miało ładną funkcję masowego tagowania.
naught101
@gung: Może dzisiaj może być inauguracyjny dzień korekty uprzedzeń: D
naught101
1
@ naught101 jednostronne ponowne tagowanie masy jest trochę nie-nie, szczególnie w przypadku właśnie utworzonego tagu. Zasadniczo najlepiej jest angażować się w meta tam, gdzie jest to wykonalne (aby wyjaśnić, co zamierzasz), a jeśli wydaje się to nie budzić kontrowersji, wykonaj kilka zmian, ale tylko kilka naraz.
Glen_b

Odpowiedzi:

11

Mimo że opis problemu nie jest wystarczająco precyzyjny, aby dokładnie wiedzieć, do jakiego rodzaju korekty odchylenia masz na myśli, myślę, że mogę o tym mówić w ogólnym ujęciu. Czasami estymator może być stronniczy. Oznacza to jedynie, że chociaż może to być dobry estymator, jego oczekiwana lub średnia wartość nie jest dokładnie równa parametrowi. Różnica między średnią estymatora a rzeczywistą wartością parametru nazywa się odchyleniem. Kiedy wiadomo, że estymator jest tendencyjny, czasem można w inny sposób oszacować błąd, a następnie zmodyfikować estymator poprzez odjęcie szacowanego błędu od pierwotnego oszacowania. Ta procedura nazywa się korekcją uprzedzeń. Odbywa się to z myślą o poprawie oszacowania. Chociaż zmniejszy to stronniczość, zwiększy również wariancję.

Dobrym przykładem udanej korekcji błędu jest oszacowanie korekcji błędu początkowego poziomu błędu klasyfikacji. Oszacowanie stopy błędu przy ponownym podstawieniu ma duże optymistyczne nastawienie, gdy wielkość próby jest niewielka. Bootstrap służy do oszacowania błędu szacunkowego odtworzenia, a ponieważ szacunek ponownego oszacowania nie docenia poziomu błędu, szacunek wstępny jest dodawany do oszacowania ponownego podstawiania, aby uzyskać oszacowany przez błąd szacunkowy błąd początkowy. Gdy wielkość próbki jest mała 30 lub mniej, łącząc obie klasy w problemie dwóch klas, pewne formy oszacowania bootstrap (szczególnie oszacowanie 632) dostarczają dokładniejszych oszacowań poziomów błędów niż pomijalna weryfikacja krzyżowa (co jest bardzo prawie obiektywne oszacowanie poziomu błędu).

Michael R. Chernick
źródło
1
„Chociaż zmniejszy to stronniczość, zwiększy również wariancję”. - czy możesz to trochę wyjaśnić? Czy to nie zależy od metody? Czy w gruncie rzeczy masz na myśli to, że zmniejszenie błędu systematycznej regresji liniowej optymalnej dla RMSE z konieczności zwiększy RMSE, czy może jest to coś innego?
naught101