Pochodząc z pola widzenia komputerowego, często stosowałem metodę RANSAC (Random Sample Consensus) do dopasowywania modeli do danych z wieloma wartościami odstającymi.
Jednak nigdy nie widziałem, aby używali go statystycy i zawsze miałem wrażenie, że nie była uważana za metodę „statystycznie solidną”. Dlaczego to jest takie? Ma charakter losowy, co utrudnia analizę, ale podobnie jak metody ładowania początkowego.
A może po prostu przypadek silosów akademickich nie rozmawia ze sobą?
Odpowiedzi:
Myślę, że kluczem jest tutaj odrzucenie dużej części danych w RANSAC.
W większości zastosowań statystycznych niektóre rozkłady mogą mieć ciężkie ogony, a zatem małe liczby próbek mogą zniekształcać estymację statystyczną. Solidne estymatory rozwiązują to poprzez inne ważenie danych. Z drugiej strony RANSAC nie podejmuje prób uwzględnienia wartości odstających, jest zbudowany dla przypadków, w których punkty danych naprawdę nie należą, a nie tylko nietypowo rozmieszczone.
źródło
Dla nas jest to tylko jeden przykład solidnej regresji - uważam, że jest ona również stosowana przez statystyków, ale może nie jest tak szeroka, ponieważ ma kilka lepiej znanych alternatyw.
źródło
To brzmi jak bagging, który jest często stosowaną techniką.
źródło
Wyrzucasz dane za pomocą RANSAC, potencjalnie bez uzasadnienia, ale w oparciu o zwiększenie dopasowania modelu. Wyrzucanie danych w celu zwiększenia dopasowania jest zwykle unikane, ponieważ możesz stracić ważne dane. Usuwanie wartości odstających bez uzasadnienia zawsze stanowi problem.
Oczywiście można to uzasadnić. Np. Jeśli wiesz, że dane powinny być zgodne z danym wzorcem, ale istnieje również odchylenie w danych od wzorca z powodu błędu w pomiarach.
źródło