Dokładne znaczenie i porównanie między wpływowym punktem, wysokim punktem dźwigni i wartością odstającą?

Obserwacje wpływowe to te obserwacje, które mają stosunkowo duży wpływ na przewidywania modelu regresji.

Punkty dźwigni to ewentualne obserwacje dokonane przy ekstremalnych lub odległych wartościach zmiennych niezależnych, tak że brak obserwacji sąsiednich oznacza, że dopasowany model regresji przejdzie blisko tej konkretnej obserwacji.

Dlaczego poniższe porównanie z Wikipedii

Chociaż punkt wpływowy będzie zazwyczaj miał wysoką dźwignię , wysoki punkt dźwigni niekoniecznie jest punktem wpływowym .

regression outliers leverage Tim
źródło

Odpowiedzi poniżej są dobre. Pomocna może również być pomoc w przeczytaniu mojej odpowiedzi tutaj: Interpreting plot.lm () .

gung - Przywróć Monikę

Odpowiedzi:

Wyobraź sobie linię regresji dopasowaną do niektórych danych.

Teraz wyobraź sobie dodatkowy punkt danych, wartość odstającą w pewnej odległości od głównej części danych, ale taki, który leży gdzieś wzdłuż tej linii regresji.

Jeśli linia regresji miałaby zostać uzupełniona, współczynniki nie zmieniłyby się. I odwrotnie, usunięcie dodatkowej wartości odstającej miałoby zerowy wpływ na współczynniki.

Zatem wartość odstająca lub punkt dźwigni miałby zerowy wpływ, gdyby był całkowicie spójny z resztą danych i sugerowanym modelem.

W przypadku „linii” należy w razie potrzeby odczytać „płaszczyznę” lub „hiperpłaszczyznę”, ale wystarczy najprostszy przykład dwóch zmiennych i wykresu rozrzutu.

Jednak, ponieważ lubisz definicje - często wydaje się, że masz w zwyczaju w nich zbyt wiele czytać - oto moja ulubiona definicja wartości odstających:

„Wartości odstające to przykładowe wartości, które powodują zaskoczenie w stosunku do większości próby” (WN Venables i BD Ripley. 2002. Współczesne statystyki stosowane z S. New York: Springer, s. 119).

Co najważniejsze, zaskoczenie jest w umyśle obserwatora i zależy od jakiegoś milczącego lub jawnego modelu danych. Może istnieć inny model, w którym wartość odstająca wcale nie jest zaskakująca, powiedzmy, czy dane naprawdę są logarytmiczne lub gamma niż normalne.

PS Nie sądzę, aby punktom dźwigni koniecznie brakowało obserwacji sąsiednich. Na przykład mogą występować w parach.

Nick Cox
źródło

Dzięki! Czy wartości odstające i wysokie wskaźniki dźwigni to ta sama koncepcja? Zauważ, że „Dźwignia jest zazwyczaj definiowana jako przekątna macierzy kapelusza” z en.wikipedia.org/wiki/Partial_leverage

Tim

Nie; nie pokazałeś nam definicji „wartości odstającej”, ale z definicji punktów dźwigni wynika, że nie muszą to być wartości odstające sensu Venables i Ripley. (Radzę spróbować odsunąć się od Wikipedii.) Zobacz także odpowiedź @ Gael.

Nick Cox,

„Co najważniejsze, zaskoczenie jest w umyśle obserwatora i zależy od jakiegoś milczącego lub jawnego modelu danych. Może istnieć inny model, w którym wartość odstająca wcale nie jest zaskakująca, powiedzmy, czy dane naprawdę są logarytmiczne lub gamma, a nie normalna." Więc wartości odstające są zdefiniowane w niektórych modelach, podczas gdy wysokie punkty dźwigni i punkty wpływowe nie są?

Tim

Venables i Ripley, w miarę, jak to czytam, robili inteligentny dowcip w dowcipny sposób i obalali naiwny pogląd, że wartości odstające można określić za pomocą dokładnych, formalnych oświadczeń. Ale inne zabiegi można znaleźć w różnych stylach. Natomiast dźwignię i wpływ można formalnie zdefiniować pod względem sposobów ich pomiaru. Dwa style używania terminologii nie są tak naprawdę spójne. Aby lepiej zrozumieć, czym są wartości odstające, a czym nie są, doświadczenie w analizie danych rzeczywistych uczy czegoś więcej niż czytanie wpisów w encyklopedii.

Nick Cox

Gael odniósł się do komentarza 29 lipca 2013 r. Używa teraz identyfikatora @Gala. W momencie pisania jest tylko jedna odpowiedź, ale to może się zmienić.

Nick Cox,

Łatwo jest zilustrować, jak wysoki punkt dźwigni może nie mieć wpływu w przypadku prostego modelu liniowego:

Wysoka dźwignia, ale niezbyt wpływowy punkt

Niebieska linia jest linią regresji opartą na wszystkich danych, czerwona linia ignoruje punkt w prawym górnym rogu wykresu.

Ten punkt jest zgodny z definicją podanego właśnie wysokiego punktu dźwigni, ponieważ znajduje się on daleko od reszty danych. Z tego powodu linia regresji (niebieska) musi przechodzić blisko niej. Ale ponieważ jego pozycja w dużej mierze pasuje do wzorca zaobserwowanego w pozostałych danych, drugi model przewidziałby go bardzo dobrze (tj. Czerwona linia i tak już do niego przechodzi) i dlatego nie jest szczególnie wpływowy.

Porównaj to z następującym wykresem rozrzutu:

Punkt dźwigni o dużym wpływie

Tutaj punkt po prawej stronie wykresu jest nadal wysokim punktem dźwigni, ale tym razem tak naprawdę nie pasuje do wzorca zaobserwowanego w pozostałych danych. Niebieska linia (dopasowanie liniowe na podstawie wszystkich danych) przebiega bardzo blisko, ale czerwona linia nie. Włączenie lub wyłączenie tego jednego punktu dramatycznie zmienia oszacowania parametrów: Ma duży wpływ.

Zauważ, że definicje, które zacytowałeś i przykłady, które właśnie podałem, mogą wydawać się sugerować, że punkty wysokiej dźwigni / wpływowe są, w pewnym sensie, jednowymiarowymi „wartościami odstającymi” i że dopasowana linia regresji przejdzie blisko punktów o największym wpływie, ale potrzebuje tak nie jest.

Ukryty wysoce wpływowy punkt

W tym ostatnim przykładzie obserwacja w prawym dolnym rogu ma (stosunkowo) duży wpływ na dopasowanie modelu (widoczne ponownie dzięki różnicy między czerwoną i niebieską linią), ale nadal wydaje się być daleko od linii regresji będąc niewykrywalnym w rozkładach jednowymiarowych (reprezentowanych tutaj przez „dywany” wzdłuż osi).

Gala
źródło

Dzięki! Czy zastosowany tutaj wysoki punkt dźwigni jest zgodny z „dźwignią jest zazwyczaj definiowana jako przekątna macierzy kapelusza” z en.wikipedia.org/wiki/Partial_leverage ?

Tim

Doskonałe wyjaśnienie. Byłby bardzo wdzięczny, gdybyś dostarczył również dane dla wszystkich trzech przypadków. Dzięki

MYaseen208,