Często analityk statystyczny otrzymuje zestaw danych i jest proszony o dopasowanie modelu przy użyciu techniki takiej jak regresja liniowa. Bardzo często do zestawu danych dołączone jest oświadczenie podobne do „Och tak, pomieszaliśmy zbieranie niektórych z tych punktów danych - rób co możesz”.
Ta sytuacja prowadzi do dopasowań regresyjnych, na które duży wpływ ma obecność wartości odstających, które mogą być błędnymi danymi. Biorąc pod uwagę następujące kwestie:
Zarówno z naukowego, jak i moralnego punktu widzenia, niebezpieczne jest wyrzucanie danych bez żadnego innego powodu niż to, że „sprawia, że dopasowanie wygląda źle”.
W rzeczywistości ludzie, którzy zbierali dane, często nie są dostępni, aby odpowiedzieć na pytania typu „podczas generowania tego zestawu danych, który z punktów popełniłeś błąd?”.
Jakie testy statystyczne lub praktyczne zasady można zastosować jako podstawę do wykluczenia wartości odstających w analizie regresji liniowej?
Czy są jakieś specjalne względy dotyczące regresji wieloliniowej?
źródło
Odpowiedzi:
Zamiast wykluczać wartości odstające, możesz zastosować solidną metodę regresji. Na przykład w R zamiast funkcji można użyć
rlm()
funkcji z pakietu MASSlm()
. Metodę szacowania można dostosować tak, aby była mniej lub bardziej odporna na wartości odstające.źródło
Czasami wartości odstające są złymi danymi i należy je wykluczyć, np. Literówki. Czasami są Wayne Gretzky lub Michael Jordan i należy je zachować.
Metody wykrywania wartości odstających obejmują:
Univariate -> boxplot. poza 1,5-krotnym zakresem międzykwartylowym jest wartością odstającą.
Dwuwymiarowa -> wykres rozproszenia z elipsą pewności. poza, powiedzmy, 95% elipsa pewności jest wartością odstającą.
Wielowymiarowy -> Odległość Mahalanobis D2
Oznacz te obserwacje jako wartości odstające.
Uruchom regresję logistyczną (na Y = IsOutlier), aby sprawdzić, czy istnieją jakieś systematyczne wzorce.
Usuń te, które możesz wykazać, że nie są reprezentatywne dla żadnej subpopulacji.
źródło
Myślę, że jest coś, co można powiedzieć o wykluczeniu wartości odstających. Linia regresji ma podsumowywać dane. Z powodu dźwigni możesz mieć sytuację, w której 1% twoich punktów danych wpływa na nachylenie o 50%.
Jest to niebezpieczne tylko z moralnego i naukowego punktu widzenia, jeśli nie powiesz nikomu, że wykluczyłeś wartości odstające. Dopóki je wskażesz, możesz powiedzieć:
„Ta linia regresji pasuje całkiem dobrze do większości danych. 1% czasu pojawia się wartość, która nie pasuje do tego trendu, ale hej, to szalony świat, żaden system nie jest idealny”
źródło
Sharpie,
Biorąc twoje pytanie dosłownie, argumentowałbym, że nie ma żadnych testów statystycznych, a zasady kciuka mogą być wykorzystane jako podstawa do wykluczenia wartości odstających w analizie regresji liniowej (w przeciwieństwie do ustalenia, czy dana obserwacja jest wartością odstającą). Musi to pochodzić z wiedzy przedmiotowej.
Myślę, że najlepszym sposobem na rozpoczęcie jest pytanie, czy wartości odstające mają sens, zwłaszcza biorąc pod uwagę inne zebrane zmienne. Na przykład, czy naprawdę uzasadnione jest posiadanie kobiety ważącej 600 funtów, która rekrutowała się z różnych klinik kontuzji sportowych? Czy też nie jest dziwne, że osoba ma 55 lat lub doświadczenie zawodowe, gdy ma zaledwie 60 lat? I tak dalej. Mamy nadzieję, że masz uzasadnione podstawy do ich wyrzucenia lub zmuszenia kompilatorów danych do dwukrotnego sprawdzenia zapisów.
Sugerowałbym również solidne metody regresji i przejrzyste zgłaszanie porzuconych obserwacji, jak sugerowali odpowiednio Rob i Chris.
Mam nadzieję, że to pomaga, Brenden
źródło
Opublikowałem metodę identyfikowania wartości odstających w regresji nieliniowej i można jej również użyć podczas dopasowywania modelu liniowego.
HJ Motulsky i RE Brown. Wykrywanie wartości odstających podczas dopasowywania danych za pomocą regresji nieliniowej - nowa metoda oparta na solidnej regresji nieliniowej i częstości fałszywych odkryć . BMC Bioinformatics 2006, 7: 123
źródło
Istnieją dwie statystyczne miary odległości, które są specjalnie dostosowane do wykrywania wartości odstających, a następnie rozważenia, czy takie wartości odstające powinny zostać usunięte z regresji liniowej.
Pierwszy to odległość Cooka. Całkiem dobre wyjaśnienie można znaleźć na Wikipedii: http://en.wikipedia.org/wiki/Cook%27s_distance .
Im większa odległość Cooka, tym bardziej wpływowa (wpływ na współczynnik regresji) jest obserwacja. Typowym punktem odcięcia dla rozważenia usunięcia obserwacji jest odległość Cooka = 4 / n (n to wielkość próbki).
Drugi to DFFITS, który jest również dobrze opisany w Wikipedii: http://en.wikipedia.org/wiki/DFFITS . Typowym punktem odcięcia dla rozważenia usunięcia obserwacji jest wartość DFFITS 2 razy sqrt (k / n), gdzie k jest liczbą zmiennych, a n jest wielkością próby.
Oba pomiary zwykle dają podobne wyniki, co prowadzi do podobnego wyboru obserwacji.
źródło
Syf na wejściu, syf na wyjściu....
Uzyskiwanie pełnej korzyści regresji liniowej polega na tym, że hałas ma rozkład normalny. Najlepiej, jeśli masz głównie dane i trochę szumu ... nie przeważnie szum i trochę danych. Możesz sprawdzić normalność reszt po dopasowaniu liniowym, patrząc na resztki. Możesz także filtrować dane wejściowe przed dopasowaniem liniowym, aby uzyskać oczywiste, rażące błędy.
Oto niektóre rodzaje szumów w wejściowych danych śmieci, które zwykle nie pasują do normalnej dystrybucji:
Napisanie specyfikacji dla „prawidłowych danych” dla każdej kolumny może pomóc w oznaczeniu nieprawidłowych danych. Na przykład wzrost osoby w cm powinien mieścić się w zakresie, powiedzmy, 100–300 cm. Jeśli znajdziesz 1.8 dla wysokości, która jest literówką, i chociaż możesz założyć, że wynosiła ona 1,8 m i zmieniła ją na 180 - powiedziałbym, że bezpieczniej jest ją wyrzucić i najlepiej udokumentować jak najwięcej filtrowania.
źródło
W przypadku regresji liniowej można użyć powtarzanego dopasowania środkowej linii prostej.
źródło
Testy statystyczne stosowane jako podstawa do wykluczenia: - znormalizowane wartości resztkowe - statystyki dźwigni - Odległość Cooka, która jest kombinacją dwóch powyższych.
Z doświadczenia wynika, że wykluczenie powinno ograniczać się do przypadków nieprawidłowego wprowadzenia danych. Ponowne ważenie wartości odstających w modelu regresji liniowej jest bardzo dobrą metodą kompromisową. Zastosowanie tego w R jest oferowane przez Rob. Świetny przykład znajduje się tutaj: http://www.ats.ucla.edu/stat/r/dae/rreg.htm
Jeśli wykluczenie jest konieczne, „jedna zasada” odnosi się do statystyk Dfbeta (miary zmieniają szacunek po usunięciu wartości odstającej), tak że jeśli wartość bezwzględna statystyki DfBeta przekracza 2 / sqrt (n), to uzasadnia usunięcie wartość odstająca.
źródło