W moich danych obserwuję dziwne wzorce w resztkach:
[EDYCJA] Oto wykresy częściowej regresji dla dwóch zmiennych:
[EDIT2] Dodano wykres PP
Wygląda na to, że dystrybucja jest w porządku (patrz poniżej), ale nie mam pojęcia, skąd ta prosta może pochodzić. Jakieś pomysły?
[AKTUALIZACJA 31.07]
Okazuje się, że miałeś całkowitą rację, miałem przypadki, w których liczba retweetów rzeczywiście wynosiła 0, a te ~ 15 przypadków spowodowało te dziwne wzorce resztkowe.
Pozostałości wyglądają teraz znacznie lepiej:
Uwzględniłem również częściowe regresje z linią lessa.
Odpowiedzi:
Wydaje się, że w niektórych jego podzakresach twoja zmienna zależna jest stała lub jest dokładnie liniowo zależna od predyktora (predyktorów). Miejmy dwie skorelowane zmienne, X i Y (Y jest zależne). Wykres rozrzutu znajduje się po lewej stronie.
Wróćmy na przykład do pierwszej („stałej”) możliwości. Przekoduj wszystkie wartości Y od najniższej do -0,5 na pojedynczą wartość -1 (patrz zdjęcie na środku). Ustaw Y na X i wykreśl rozproszenie resztek, czyli obróć środkowy obraz, aby linia prognozy była teraz pozioma. Czy to przypomina twoje zdjęcie?
źródło
Nic dziwnego, że nie widzisz wzoru na histogramie, dziwny wzór obejmuje sporo zakresu histogramu i reprezentuje tylko kilka punktów danych w każdym bin. Naprawdę musisz dowiedzieć się, które to punkty danych i na nie spojrzeć. Możesz użyć przewidywanych wartości i resztek, aby znaleźć je dość łatwo. Po znalezieniu wartości zacznij badać, dlaczego te mogą być wyjątkowe.
To powiedziawszy, ten szczególny wzór jest wyjątkowy, ponieważ jest długi. Jeśli przyjrzysz się uważnie swojemu wykresowi resztek i wykresowi kwantowemu, zobaczysz, że się powtarza, ale że są to mniejsze sekwencje. Być może to naprawdę anomalia. A może tak naprawdę jest to wzór, który się powtarza. Ale będziesz musiał znaleźć to, co jest w surowych danych i zbadać je, aby mieć jakąkolwiek nadzieję na ich zrozumienie.
Aby ci pomóc, wykres kwantylowo-kwantylowy sugeruje, że masz kilka identycznych reszt. Możliwe, że może to być błąd kodowania. Mogę wygenerować coś podobnego w R za pomocą ...
Zwróć uwagę na dwa płaskie punkty w linii. Wydaje się to jednak bardziej skomplikowane, ponieważ istnieje implikacja, że identyczne reszty natrafiają na szereg predyktorów.
źródło
Wygląda na to, że używasz
R
. Jeśli tak, należy pamiętać, że można zidentyfikować punkty na wykresie rozrzutu użyciu ? Zidentyfikować . Myślę, że dzieje się tutaj kilka rzeczy. Po pierwsze, masz bardzo wpływowy punkt na wykresieLN_RT_vol_in ~ LN_AT_vol_in
(podświetlonego) w przybliżeniu (.2, 1,5). Jest to bardzo prawdopodobne, że będzie to znormalizowana reszta, która wynosi około -3,7. Efektem tego punktu będzie spłaszczenie linii regresji, pochylenie jej bardziej poziomo niż ostro podniesiona linia, którą uzyskałbyś w przeciwnym razie. Efektem tego jest to, że wszystkie twoje resztki zostaną obrócone przeciwnie do ruchu wskazówek zegara w stosunku do miejsca, w którym w przeciwnym razie zostałyby zlokalizowane naresidual ~ predicted
wykresie (przynajmniej podczas myślenia w kategoriach tej zmiennej i ignorowania drugiej).Niemniej jednak widoczna prosta linia resztek, którą zobaczysz, nadal tam będzie, ponieważ istnieją one gdzieś w trójwymiarowej chmurze twoich oryginalnych danych. Trudno je znaleźć na jednym z marginalnych wykresów. Możesz użyć funkcji ident (), aby pomóc, a także możesz użyć pakietu rgl , aby utworzyć dynamiczny wykres rozproszenia 3D, który można swobodnie obracać za pomocą myszy. Należy jednak zauważyć, że reszty linii prostej są poniżej 0 w przewidywanej wartości i mają poniżej 0 reszt (tj. Są poniżej dopasowanej linii regresji); daje to dużą wskazówkę, gdzie szukać. Patrząc ponownie na twoją fabułę
LN_RT_vol_in ~ LN_AT_vol_in
, Myślę, że mogę je zobaczyć. Istnieje dość prosta grupa punktów biegnących po przekątnej w dół i na lewo od około (-1,01; -1,00) na dolnej krawędzi chmury punktów w tym regionie. Podejrzewam, że o to chodzi.Innymi słowy, reszty wyglądają w ten sposób, ponieważ są już w taki sposób gdzieś w przestrzeni danych. W gruncie rzeczy, to sugeruje @ttnphns, ale nie sądzę, że jest to stała w żadnym z oryginalnych wymiarów - to stała w wymiarze pod kątem do twoich oryginalnych osi. Ponadto zgadzam się z @MichaelChernick, że ta pozorna prostoliniowość w wykresie resztkowym jest prawdopodobnie nieszkodliwa, ale twoje dane nie są tak naprawdę bardzo normalne. Są one jednak nieco normalne i wydaje się, że masz przyzwoitą liczbę danych, więc CLT może Cię pokryć, ale na wszelki wypadek możesz chcieć uruchomić. Wreszcie martwiłbym się, że ta „odstająca” przyczynia się do twoich wyników; solidne podejście prawdopodobnie zasługuje.
źródło
it's a constant in a dimension at an angle to your original axes
być porównywalne z moimis exactly linearly dependent on the predictor(s)
, czy masz na myśli coś innego?Niekoniecznie powiedziałbym, że histogram jest w porządku. Nałożenie wizualnie najlepszego dopasowania normalnego na histogramie może być zwodnicze, a twój histogram może być wrażliwy na wybór szerokości pojemnika. Wykres normalnego prawdopodobieństwa wydaje się wskazywać na duże odchylenie od normy, a nawet patrząc na histogram wydaje mi się, że jest to niewielki wypaczenie (wyższa częstotliwość w przedziale [0, + 0,5] w porównaniu do przedziału [-0,5,0]) i ciężka kurtoza (zbyt duża częstotliwość w przedziałach [-4, -3,5] i [2,5, 3]).
Jeśli chodzi o wzorzec, który widzisz, może pochodzić z selektywnej eksploracji przez wykres rozrzutu. Wygląda na to, że jeśli polujesz na więcej, możesz znaleźć dwie lub trzy kolejne linie prawie równoległe do tej, którą wybrałeś. Myślę, że za dużo tego czytasz. Ale nienormalność jest prawdziwym problemem. Masz jedną bardzo dużą wartość odstającą z resztą prawie -4. Czy te resztki pochodzą z dopasowania najmniejszych kwadratów? Zgadzam się, że dobrze byłoby spojrzeć na dopasowaną linię na wykresie rozrzutu danych.
źródło