Jak czytać wykresy odległości Cooka?

40

Czy ktoś wie, jak sprawdzić, czy punkty 7, 16 i 29 są punktami wpływowymi, czy nie? Czytałem gdzieś, że ponieważ odległość Cooka jest mniejsza niż 1, nie są. Czy mam rację?

wprowadź opis zdjęcia tutaj

Platypezid
źródło
1
Istnieją różne opinie. Niektóre z nich dotyczą liczby obserwacji lub liczby parametrów. Zostały one naszkicowane na stronie en.wikipedia.org/wiki/… .
whuber
@whuber Dzięki. Jest to dla mnie zawsze szara strefa podczas eksploracji danych. Punkt danych 16 powyżej ma ogromny wpływ na wyniki modelu, zwiększając w ten sposób błędy typu I.
Platypezid
2
Można argumentować, że zwiększa on także błędy „typu III”, które (ogólnie i nieformalnie) są błędami związanymi z niemożnością zastosowania podstawowego modelu prawdopodobieństwa.
whuber
@ whuber tak, bardzo prawda!
Platypezid

Odpowiedzi:

43

Niektóre teksty mówią, że punkty, dla których odległość Cooka jest większa niż 1, należy uznać za wpływowe. Inne teksty podają próg lub 4 / ( N - k - 1 ) , gdzie N jest liczbą obserwacji, a k liczbą zmiennych objaśniających. W twoim przypadku ta druga formuła powinna dawać próg około 0,1.4/N.4/(N.-k-1)N.k

John Fox (1) w swojej broszurze na temat diagnostyki regresji jest dość ostrożny, jeśli chodzi o podawanie progów liczbowych. Zaleca użycie grafiki i dokładniejsze zbadanie punktów z „wartościami D, które są znacznie większe niż reszta”. Według Foxa progi powinny być po prostu stosowane do ulepszania wyświetlania graficznego.

W twoim przypadku obserwacje 7 i 16 można uznać za wpływowe. Cóż, przynajmniej przyjrzałbym się im z bliska. Obserwacja 29 nie różni się zasadniczo od kilku innych obserwacji.


(1) Fox, John. (1991). Diagnostyka regresji: wprowadzenie . Publikacje Sage.


źródło
9
+1 Wyczyść podsumowanie. Dodam, że wpływowe przypadki zwykle nie są problemem, gdy ich usunięcie ze zbioru danych pozostawi parametr szacuje zasadniczo niezmienione: te, martwimy się o to te, których obecność naprawdę nie zmieni wyników.
whuber
1
@lejohn Bardzo doceniam twoją odpowiedź. Whuber ma doskonałą jasność w twojej odpowiedzi. To jest bardzo pouczające. Może sugeruję wyróżnienie Foxa i jego opinii na stronie wikipedii!
Platypezid
29

kk+1β0β

Warto tutaj wspomnieć o jeszcze jednym. W badaniach obserwacyjnych często trudno jest równomiernie próbkować w przestrzeni predyktora, a może być tylko kilka punktów w danym obszarze. Takie punkty mogą różnić się od reszty. Posiadanie kilku odrębnych przypadków może być nieprzyjemne, ale zasługują na głęboką refleksję, zanim zostaną zdegradowane. Pomiędzy predyktorami może istnieć interakcja lub system może zmienić się, by zachowywać się inaczej, gdy wartości predyktorów staną się ekstremalne. Ponadto mogą pomóc w rozwiązaniu skutków predyktorów kolinearnych. Punkty wpływowe mogą być przebłagalnym błogosławieństwem.

gung - Przywróć Monikę
źródło
6
+1 „Odległość Cooka jest prawdopodobnie ważniejsza dla ciebie, jeśli wykonujesz modelowanie predykcyjne, podczas gdy dfbeta jest ważniejsza w modelowaniu wyjaśniającym”: jest to bardzo przydatna rada.
Anne Z.
Cześć - ciekawa dyskusja. Ale czy nie byłoby racjonalne zintegrować zmienną fikcyjną do pomiaru efektu z na przykład obserwacji 16?
Pantera
@Pantera usunąłem 16 i porównałem modele przed i po
oddaniowe
Cześć - jeśli usuniesz obserwacje, powinieneś upewnić się, że masz „dobry” argument, aby to zrobić, na przykład, że obserwacja jest źle zmierzona. Jeśli wyrzucimy obserwację, ponieważ powodują one pewne problemy statystyczne, jesteśmy blisko eksploracji danych.
Pantera