Dlaczego zwykłe najmniejsze kwadraty działają lepiej niż regresja Poissona?

18

Próbuję dopasować regresję, aby wyjaśnić liczbę zabójstw w każdej dzielnicy miasta. Chociaż wiem, że moje dane są zgodne z rozkładem Poissona, próbowałem dopasować taki OLS:

log(y+1)=α+βX+ϵ

Następnie spróbowałem (oczywiście!) Regresji Poissona. Problemem jest to, że lepsze wyniki w regresji OLS: pseudo jest wyższa (0,71 vs 0,57) i RMSE jak również (3,8 vs 8,88 znormalizowanym mają tę samą jednostkę.).R2

Dlaczego? Jest to normalne? Co jest złego w korzystaniu z OLS bez względu na dystrybucję danych?

edytuj Zgodnie z sugestiami Kjetil b Halvorsen i innymi, dopasowałem dane do dwóch modeli: OLS i Negative Binomial GLM (NB). Zacząłem od wszystkich funkcji, które posiadałem, a następnie rekursywnie usuwałem kolejno te funkcje, które nie były znaczące. OLS jest

crimearea=α+βX+ϵ

z ciężarami = .area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NB przewiduje liczbę przestępstw z przesunięciem obszaru dzielnicy.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

Pozostałości OLS:

wprowadź opis zdjęcia tutaj

NB pozostałości

wprowadź opis zdjęcia tutaj

Więc RMSE jest niższy w OLS, ale wydaje się, że reszty nie są tak normalne ....

marcodena
źródło
Czy możesz podać więcej szczegółów? Jaki jest charakter danych? to znaczy, ile liczy się zmienna odpowiedzi? jakie są zmienne objaśniające?
kjetil b halvorsen
@kjetilbhalvorsen zmienną zależną jest liczba zabójstw na dystrykt (112 dzielnic). Te niezależne są cechami strukturalnymi miasta (skrzyżowania ulic, POI itp.)
marcodena
2
Gdybym pasował do tego modelu za pomocą regresji Poissona, uwzględniłbym log (rozmiar dzielnicy) jako przesunięcie w celu uwzględnienia dzielnic, które nie są wielkościami ame. Chyba że są.
mdewey
1
Jakie jest twoje uzasadnienie dla myślenia, że ​​porównanie OLS z p s e u d o - R 2 z oszacowania ML (i R M S E ), daje wskazówkę, jak dobry jest dany model? OLS, z założenia, maksymalizuje R 2 . Czy regresja Trucizny jest tak skonstruowana, aby zmaksymalizować p s e u d o - R 2 ? Nie sądzę i nie sądzę, aby to porównanie było przydatne. R2pseudoR2RMSER2pseudoR2
coffeinjunky
1
Inną rzeczą, aby dodać - w z OLS jest mówienie% wariancji wyjaśnioneR2z=log(y+1)R2y

Odpowiedzi:

16

Podejrzewam, że część problemu może wynikać z wyboru metryki wydajności. Jeśli mierzysz wydajność testu za pomocą RMSE, to szkolenie modelu w celu zminimalizowania MSE odpowiada kryterium testu, dając wskazówkę co do tego, co jest uważane za ważne. Może się okazać, że jeśli zmierzysz wydajność testu przy użyciu ujemnego prawdopodobieństwa logarytmicznego zestawu testowego przy użyciu prawdopodobieństwa Poissona, że ​​model Poissona działa lepiej (jak można się spodziewać). Może to być drobny problem w porównaniu z innymi podniesionymi problemami, ale może być użytecznym sprawdzeniem rozsądku.

Dikran Torbacz
źródło
1
+1. Jeśli celem PO było przewidywanie, może istnieć uzasadnienie dla zastosowania modelu OLS! Niemniej klasyczne wnioskowanie oparte na błędach wynikające z OLS nie może / nie powinno być stosowane w GLM. Można było sprawdzić resztki uczniowskie lub lepszym rozwiązaniem byłoby porównanie modeli z AIC.
AdamO,
11

Po pierwsze, przy takich danych spodziewałbym się nadmiernej dyspersji (jeśli nie wiesz, co to jest, zobacz /stats//search?q=what+is+overdispersion%3F ).

log(DistrictSize)Nr. homicidesDistrict Size

Innym problemem jest transformacja zastosowana w regresji liniowej. Zwykłą transformacją stabilizującą wariancję stosowaną z danymi zliczania jest pierwiastek kwadratowy, a nie logarytm.

Inną kwestią jest wybór transformacji stosowanej przy regresji liniowej. Gdy użyjesz jako odpowiedzi , będziesz potrzebować ważonej regresji liniowej. Przyjmując jako przybliżenie, że Y iPoisson ( λ x iYi/xiYiPoisson(λxi)

EYixiλVYixixi1
xiYi/xilog(Yi/xi+1)
    EDIT

Jeśli chodzi o Twoją dodatkową analizę w poście, zauważ, że nie można porównywać rmse bezpośrednio między dwoma modelami, ponieważ stosowane są różne odpowiedzi! Aby dokonać bezpośredniego porównania, należy ponownie przekształcić przewidywane wartości do oryginalnej skali. Następnie możesz sam obliczyć rmse i zobaczyć. Należy jednak pamiętać, że prognozy uzyskane po transformacji wstecznej mogą być tendencyjne z powodu nieliniowości. Tak więc pewne dostosowanie prognoz przekształcanych wstecznie może uczynić je bardziej użytecznymi. W niektórych przypadkach można to obliczyć teoretycznie, ale można po prostu użyć paska startowego.

kjetil b halvorsen
źródło
Dopasowałem modele tak, jak zasugerowałeś, chociaż tak naprawdę nie rozumiałem rezonów ważonego OLS. Co myślisz?
marcodena
6

R2R2R2R2

Cliff AB
źródło
2

To prawda, że ​​twoje dane nie są normalnie dystrybuowane (co, jak przypuszczam, spowodowałeś również regresję Poissona), ale twoje dane również prawdopodobnie nie są rozkładem Poissona. Rozkład Poissona zakłada, że ​​średnia i wariancja są takie same, co prawdopodobnie nie jest prawdą (jak wspomniano w innych odpowiedziach - można uchwycić tę rozbieżność i włączyć ją do modelu). Ponieważ dane nie są idealnie dopasowane do żadnego z modeli, ma sens, że OLS może działać lepiej.

Inną rzeczą, na którą należy zwrócić uwagę, jest to, że zwykłe szacunki najmniejszych kwadratów są odporne na nienormalność, co może być przyczyną otrzymania rozsądnego modelu. Twierdzenie Gaussa-Markowa mówi nam, że szacunki współczynników OLS są najlepszymi (pod względem średniego błędu kwadratu) liniowymi obiektywnymi estymatorami (NIEBIESKIM) przy następujących założeniach,

  • Błędy mają średnią zero
  • Obserwacje są nieskorelowane
  • Błędy mają stałą wariancję

Nie zakłada się tutaj Normalności, więc twoje dane mogą być bardzo rozsądne dla tego modelu! Biorąc to pod uwagę, przyjrzałbym się modelowi Poissona z parametrem nadmiernej dyspersji i powinno się uzyskać lepsze wyniki.

TrynnaDoStat
źródło
@TynnaDoStat dzięki! Zamontowałem teraz dwa modele, jeden z parametrem dyspersji. Co myślisz?
marcodena
2
Wariancja = średnia dla rozkładu Poissona jest często przywoływana jako problematyczne założenie dla regresji Poissona , ale punkt ten nie jest tak trudny, jak się tutaj sugeruje. Pomimo nazwy, główną ideą regresji Poissona jest funkcja log log; założenia dotyczące rozkładu warunkowego nie są prawie tak ważne. Prawdopodobne jest, że jeśli nie wszystkie założenia się sprawdzą, to standardowe błędy są wyłączone, chyba że się dostosujesz, ale dopasowanie często ma sens.
Nick Cox,
2
Rzeczywiście regresja Poissona może mieć sens w przypadku nieujemnych zmierzonych odpowiedzi, w których wariancja i średnia nie mają nawet takich samych wymiarów. Patrz np. Blog.stata.com/2011/08/22/…
Nick Cox