Wartość odcięcia odległości Cooka

9

Czytałem o odległości kucharza, aby zidentyfikować wartości odstające, które mają duży wpływ na moją regresję. W oryginalnym badaniu Cooka powiedział, że wskaźnik odcięcia 1 powinien być porównywalny do zidentyfikowania czynników wpływających. Wykorzystują jednak różne inne badania4n lub 4nk1 jako punkt odcięcia.

W moim badaniu żadna z moich reszt nie ma D wyższego niż 1. Jednak jeśli4n jako punkt odcięcia (4149=.026), istnieją różne punkty danych, które są uważane za czynniki wpływające. Postanowiłem przetestować, czy usunięcie tych punktów danych miałoby różnicę w mojej ogólnej regresji liniowej. Wszystkie moje IV zachowały swoje znaczenie i żadna oczywista zmiana nie była widoczna.

Czy powinienem zachować wszystkie moje punkty danych i zastosować wartość graniczną 1? Czy je usunąć?

rozprawa pomoc
źródło
Sprawdź Baltagi (2011) Econometrics, 5e. W rozdziale 8 sekcja 8.1. Sugeruje inny środek wywodzący się z odległości Cooka, który sprawdza także zniekształcenia / wpływy wpływowej obsady w macierzy Var-Covara, które mogą być również potrzebne, ponieważ estymatory nie zmieniają wiele ...
SirAlex,
10
Nie powinieneś usuwać żadnych danych na podstawie tej diagnostyki. Jego celem jest pomóc ci myśleć o nich i ich wpływie na twoją analizę.
whuber

Odpowiedzi:

5

Prawdopodobnie wybrałbym twój oryginalny model z pełnym zestawem danych. Ogólnie uważam te rzeczy za ułatwiające analizy wrażliwości. Oznacza to, że wskazują ci, co należy sprawdzić, aby upewnić się, że nie masz określonego wyniku tylko z powodu czegoś głupiego. W twoim przypadku masz kilka potencjalnie wpływowych punktów, ale jeśli ponownie uruchomisz model bez nich, uzyskasz merytorycznie tę samą odpowiedź (przynajmniej w odniesieniu do aspektów, które prawdopodobnie Cię interesują). Innymi słowy, użyj dowolnego progu, który ci się podoba - model instalujesz tylko jako czek, a nie „prawdziwą” wersję. Jeśli uważasz, że inne osoby będą wystarczająco zaniepokojone potencjalnymi wartościami odstającymi, możesz zgłosić oba modele. To, co powiedziałbyś, jest zgodne z:

Oto moje wyniki. Można się martwić, że ten obraz pojawia się tylko z powodu kilku niezwykłych, ale bardzo wpływowych obserwacji. Są to wyniki tego samego modelu, ale bez tych obserwacji. Nie ma istotnych różnic.

Możliwe jest również ich usunięcie i użycie drugiego modelu jako głównego wyniku. W końcu pozostanie przy oryginalnym zestawie danych stanowi założenie, które dane należą do modelu tak samo, jak przejście do podzbioru. Ale ludzie prawdopodobnie będą bardzo sceptycznie podchodzić do twoich zgłoszonych wyników, ponieważ psychologicznie zbyt łatwo jest komuś przekonać się, bez żadnego faktycznego skorumpowanego zamiaru, przejść do zestawu poprawek post-hoc (takich jak porzucenie niektórych obserwacji), które dają im wynik, którego najbardziej oczekiwali. Zawsze korzystając z pełnego zestawu danych, zapobiegasz tej możliwości i zapewniasz ludzi (powiedzmy, recenzentów), że to nie dzieje się w twoim projekcie.

Inną kwestią jest to, że ludzie „ gonią za bańką ”. Po upuszczeniu niektórych potencjalnych wartości odstających i ponownym uruchomieniu modelu otrzymujesz wyniki, które pokazują nowe, różne obserwacje jako potencjalne wartości odstające. Ile iteracji musisz przejść? Standardowa odpowiedź brzmi: powinieneś pozostać przy swoim oryginalnym, pełnym zestawie danych i zamiast tego uruchomić solidną regresję . To znowu można rozumieć jako analizę wrażliwości.

gung - Przywróć Monikę
źródło