Ukośne linie proste w wartościach resztkowych względem dopasowanych wartości dla regresji wielokrotnej

11

W moich danych obserwuję dziwne wzorce w resztkach: wprowadź opis zdjęcia tutaj

[EDYCJA] Oto wykresy częściowej regresji dla dwóch zmiennych:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Dodano wykres PP http://i.imgur.com/pCKFA.png

Wygląda na to, że dystrybucja jest w porządku (patrz poniżej), ale nie mam pojęcia, skąd ta prosta może pochodzić. Jakieś pomysły? wprowadź opis zdjęcia tutaj

[AKTUALIZACJA 31.07]

Okazuje się, że miałeś całkowitą rację, miałem przypadki, w których liczba retweetów rzeczywiście wynosiła 0, a te ~ 15 przypadków spowodowało te dziwne wzorce resztkowe.

Pozostałości wyglądają teraz znacznie lepiej: http://i.imgur.com/XGas9.png

Uwzględniłem również częściowe regresje z linią lessa. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png

plotti
źródło
Czy możesz dodać dopasowaną linię również na oryginalnych danych?
MånsT
Ponadto podtytuły liczb mówią „społeczność: anime” i „społeczność: astrologia”, co wydaje się sugerować, że te fabuły pochodzą z różnych zbiorów danych ...
MånsT
Pamiętam, że widziałem tego typu wzorce w moich resztach, kiedy moje zmienne zależne są kategoryczne lub „niewystarczająco ciągłe”.
Król
Dodałem właściwy wykres PP i częściowe wykresy dwóch IV
wykres

Odpowiedzi:

23

Wydaje się, że w niektórych jego podzakresach twoja zmienna zależna jest stała lub jest dokładnie liniowo zależna od predyktora (predyktorów). Miejmy dwie skorelowane zmienne, X i Y (Y jest zależne). Wykres rozrzutu znajduje się po lewej stronie.

wprowadź opis zdjęcia tutaj

Wróćmy na przykład do pierwszej („stałej”) możliwości. Przekoduj wszystkie wartości Y od najniższej do -0,5 na pojedynczą wartość -1 (patrz zdjęcie na środku). Ustaw Y na X i wykreśl rozproszenie resztek, czyli obróć środkowy obraz, aby linia prognozy była teraz pozioma. Czy to przypomina twoje zdjęcie?

ttnphns
źródło
6
To statystyki kryminalistyczne w najlepszym wydaniu! Duży +1.
Michael R. Chernick
Okazuje się, że miałeś całkowitą rację, miałem przypadki, w których liczba retweetów rzeczywiście wynosiła 0, a te ~ 15 przypadków spowodowało te dziwne wzorce. i.imgur.com/XGas9.png
plotti
4

Nic dziwnego, że nie widzisz wzoru na histogramie, dziwny wzór obejmuje sporo zakresu histogramu i reprezentuje tylko kilka punktów danych w każdym bin. Naprawdę musisz dowiedzieć się, które to punkty danych i na nie spojrzeć. Możesz użyć przewidywanych wartości i resztek, aby znaleźć je dość łatwo. Po znalezieniu wartości zacznij badać, dlaczego te mogą być wyjątkowe.

To powiedziawszy, ten szczególny wzór jest wyjątkowy, ponieważ jest długi. Jeśli przyjrzysz się uważnie swojemu wykresowi resztek i wykresowi kwantowemu, zobaczysz, że się powtarza, ale że są to mniejsze sekwencje. Być może to naprawdę anomalia. A może tak naprawdę jest to wzór, który się powtarza. Ale będziesz musiał znaleźć to, co jest w surowych danych i zbadać je, aby mieć jakąkolwiek nadzieję na ich zrozumienie.

Aby ci pomóc, wykres kwantylowo-kwantylowy sugeruje, że masz kilka identycznych reszt. Możliwe, że może to być błąd kodowania. Mogę wygenerować coś podobnego w R za pomocą ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Zwróć uwagę na dwa płaskie punkty w linii. Wydaje się to jednak bardziej skomplikowane, ponieważ istnieje implikacja, że ​​identyczne reszty natrafiają na szereg predyktorów.

Jan
źródło
3

Wygląda na to, że używasz R. Jeśli tak, należy pamiętać, że można zidentyfikować punkty na wykresie rozrzutu użyciu ? Zidentyfikować . Myślę, że dzieje się tutaj kilka rzeczy. Po pierwsze, masz bardzo wpływowy punkt na wykresie LN_RT_vol_in ~ LN_AT_vol_in(podświetlonego) w przybliżeniu (.2, 1,5). Jest to bardzo prawdopodobne, że będzie to znormalizowana reszta, która wynosi około -3,7. Efektem tego punktu będzie spłaszczenie linii regresji, pochylenie jej bardziej poziomo niż ostro podniesiona linia, którą uzyskałbyś w przeciwnym razie. Efektem tego jest to, że wszystkie twoje resztki zostaną obrócone przeciwnie do ruchu wskazówek zegara w stosunku do miejsca, w którym w przeciwnym razie zostałyby zlokalizowane na residual ~ predictedwykresie (przynajmniej podczas myślenia w kategoriach tej zmiennej i ignorowania drugiej).

Niemniej jednak widoczna prosta linia resztek, którą zobaczysz, nadal tam będzie, ponieważ istnieją one gdzieś w trójwymiarowej chmurze twoich oryginalnych danych. Trudno je znaleźć na jednym z marginalnych wykresów. Możesz użyć funkcji ident (), aby pomóc, a także możesz użyć pakietu rgl , aby utworzyć dynamiczny wykres rozproszenia 3D, który można swobodnie obracać za pomocą myszy. Należy jednak zauważyć, że reszty linii prostej są poniżej 0 w przewidywanej wartości i mają poniżej 0 reszt (tj. Są poniżej dopasowanej linii regresji); daje to dużą wskazówkę, gdzie szukać. Patrząc ponownie na twoją fabułęLN_RT_vol_in ~ LN_AT_vol_in, Myślę, że mogę je zobaczyć. Istnieje dość prosta grupa punktów biegnących po przekątnej w dół i na lewo od około (-1,01; -1,00) na dolnej krawędzi chmury punktów w tym regionie. Podejrzewam, że o to chodzi.

Innymi słowy, reszty wyglądają w ten sposób, ponieważ są już w taki sposób gdzieś w przestrzeni danych. W gruncie rzeczy, to sugeruje @ttnphns, ale nie sądzę, że jest to stała w żadnym z oryginalnych wymiarów - to stała w wymiarze pod kątem do twoich oryginalnych osi. Ponadto zgadzam się z @MichaelChernick, że ta pozorna prostoliniowość w wykresie resztkowym jest prawdopodobnie nieszkodliwa, ale twoje dane nie są tak naprawdę bardzo normalne. Są one jednak nieco normalne i wydaje się, że masz przyzwoitą liczbę danych, więc CLT może Cię pokryć, ale na wszelki wypadek możesz chcieć uruchomić. Wreszcie martwiłbym się, że ta „odstająca” przyczynia się do twoich wyników; solidne podejście prawdopodobnie zasługuje.

gung - Przywróć Monikę
źródło
1
Czy to twoje oświadczenie może it's a constant in a dimension at an angle to your original axesbyć porównywalne z moim is exactly linearly dependent on the predictor(s), czy masz na myśli coś innego?
ttnphns
@ttnphns, przeoczyłem tę część twojej odpowiedzi, kiedy ją przejrzałem; Widziałem „stałą” i widziałem punkty na twojej fabule, i to właśnie zabrałem. Tak, „to stała w wymiarze ...” jest logicznie synonimem w / „jest dokładnie zależne liniowo ...”. Teraz zdaję sobie sprawę, że mój główny punkt jest w dużej mierze taki sam jak twój (+1), chociaż myślę, że niektóre z moich innych punktów (które to prawdopodobnie winowajcy, strategie R, solidne podejście itp.) Nadal wnoszą coś do dyskusji.
gung - Przywróć Monikę
Jasne, twoja odpowiedź wiele dla mnie przyczyniła.
ttnphns
1

Niekoniecznie powiedziałbym, że histogram jest w porządku. Nałożenie wizualnie najlepszego dopasowania normalnego na histogramie może być zwodnicze, a twój histogram może być wrażliwy na wybór szerokości pojemnika. Wykres normalnego prawdopodobieństwa wydaje się wskazywać na duże odchylenie od normy, a nawet patrząc na histogram wydaje mi się, że jest to niewielki wypaczenie (wyższa częstotliwość w przedziale [0, + 0,5] w porównaniu do przedziału [-0,5,0]) i ciężka kurtoza (zbyt duża częstotliwość w przedziałach [-4, -3,5] i [2,5, 3]).

Jeśli chodzi o wzorzec, który widzisz, może pochodzić z selektywnej eksploracji przez wykres rozrzutu. Wygląda na to, że jeśli polujesz na więcej, możesz znaleźć dwie lub trzy kolejne linie prawie równoległe do tej, którą wybrałeś. Myślę, że za dużo tego czytasz. Ale nienormalność jest prawdziwym problemem. Masz jedną bardzo dużą wartość odstającą z resztą prawie -4. Czy te resztki pochodzą z dopasowania najmniejszych kwadratów? Zgadzam się, że dobrze byłoby spojrzeć na dopasowaną linię na wykresie rozrzutu danych.

Michael R. Chernick
źródło
Dodałem częściowe wykresy dwóch IV, aby rzucić na to więcej światła
plotti
1
Chciałbym zobaczyć najbardziej podstawową rzecz, dopasowaną linię przebiegającą przez wykres rozproszenia danych.
Michael R. Chernick