Po pierwsze, powinienem stwierdzić, że szukałem odpowiedzi na tej stronie. Albo nie znalazłem pytania, które odpowiedziałoby na moje pytanie, albo mój poziom wiedzy jest tak niski, że nie zdawałem sobie sprawy, że już przeczytałem odpowiedź.
Studiuję do egzaminu AP Statistics. Muszę nauczyć się regresji liniowej, a jednym z tematów są resztki. Mam kopię Wstępu do statystyki i analizy danych na stronie 253.
Nietypowe punkty zestawu danych dwuwymiarowych są te, które wchodzą od większości innych punktach rozrzutu albo w kierunku lub kierunku
Obserwacja jest potencjalnie obserwacją wpływową, jeśli ma wartość która jest daleko od reszty danych (oddzielona od reszty danych w kierunku ). Aby ustalić, czy obserwacja rzeczywiście ma wpływ, oceniamy, czy usunięcie tej obserwacji ma duży wpływ na wartość nachylenia czy przecięcie linii najmniejszych kwadratów.
Obserwacja jest wartością odstającą, jeśli ma dużą resztę. Obserwacje skrajne wypadają daleko od linii najmniejszych kwadratów w kierunku .
Stattreck.com podaje cztery metody określania wartości odstającej od pozostałości:
Punkty danych, które znacznie odbiegają od ogólnego wzorca, nazywane są wartościami odstającymi. Istnieją cztery sposoby uznania punktu danych za wartość odstającą.
- Może mieć ekstremalną wartość X w porównaniu do innych punktów danych.
- Może mieć ekstremalną wartość Y w porównaniu do innych punktów danych.
- Może mieć ekstremalne wartości X i Y.
- Może być odległy od reszty danych, nawet bez ekstremalnych wartości X lub Y.
Te dwa źródła wydają się ze sobą sprzeczne. Czy ktoś mógłby pomóc mi wyjaśnić moje zamieszanie. Jak zdefiniować ekstremum. Statystyka AP używa reguły, jeśli punkt danych znajduje się poza (Q1-1.5IQR, Q3 + 1.5IQR), jest to wartość odstająca. Nie wiem, jak to zastosować na podstawie wykresu z reszt.
źródło
Zgadzam się z Johnem. Oto kilka dodatkowych punktów. Obserwacja wpływowa (ściśle) ma wpływ na oszacowanie parametrów. Niewielkie odchylenie wartości Y daje dużą zmianę w szacowanych parametrach beta. W prostej regresji jednej zmiennej względem drugiej zmiennymi wpływowymi są dokładnie te, których wartość X jest odległa od średniej X. W regresji wielokrotnej (kilka zmiennych niezależnych) sytuacja jest bardziej złożona. Musisz spojrzeć na przekątną tak zwanej macierzy kapelusza , a oprogramowanie regresji da ci to. „Dźwignia” Google.X(X′X)−1X′
Wpływ jest funkcją punktów projektowych (wartości X), jak stwierdza twój podręcznik.
Zauważ, że wpływ to moc. W zaprojektowanym eksperymencie potrzebujesz wpływowych wartości X, zakładając, że możesz dokładnie zmierzyć odpowiednią wartość Y. W ten sposób zyskujesz więcej.
Dla mnie wartość odstająca jest w zasadzie błędem - to znaczy obserwacją, która nie jest zgodna z tym samym modelem, co reszta danych. Może się to zdarzyć z powodu błędu gromadzenia danych lub dlatego, że ten konkretny temat był w jakiś sposób niezwykły.
Nie podoba mi się definicja wartości odstającej z stattrek z kilku powodów. Regresja nie jest symetryczna w Y i X. Y jest modelowany jako zmienna losowa i zakłada się, że X są ustalone i znane. Dziwność w Y nie jest tym samym, co dziwność w X. Wpływ i nietypowość oznaczają różne rzeczy. Wpływ w regresji wielokrotnej nie jest wykrywany na podstawie wykresów resztkowych. Dobry opis wartości odstających i wpływ na przypadek pojedynczej zmiennej powinien przygotować cię do zrozumienia również przypadku wielokrotnego.
Jeszcze bardziej nie lubię twojego podręcznika z powodów podanych przez Jana.
Podsumowując, wpływowe wartości odstające są niebezpieczne. Należy je dokładnie zbadać i zająć się nimi.
źródło