Regresja z wypaczonymi danymi

12

Próba obliczenia liczby odwiedzin na podstawie danych demograficznych i usług. Dane są bardzo wypaczone.

Histogramy:

histogramy

wykresy qq (po lewej jest log):

wykresy qq - prawo to log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityi servicesą zmiennymi czynnikowymi.

Otrzymuję niską wartość p *** dla wszystkich zmiennych, ale dostaję także niski r-kwadrat wynoszący 0,05. Co powinienem zrobić? Czy zadziałałby inny model, na przykład wykładniczy czy coś takiego?

pxxd
źródło
Ponieważ to, co pierwotnie myślałem, że wysoka częstotliwość zerowa jest tak naprawdę wysoką częstotliwością dwójek, czy możesz nam powiedzieć coś więcej o procesie generowania danych? Do jakiego rodzaju usług korzystali ludzie i jaki jest „ostateczny cel” analizy? Czy próbujesz przewidzieć liczbę (liczbę) wizyt, biorąc pod uwagę zestaw cech (tj. Jako miarę jakości usługi)? Czy absolutnie musisz zachować wynik jako licznik w celu udzielenia odpowiedzi na pytanie badawcze, czy może możesz zawrzeć zmienną wyniku na mniejszą, ale większą kategorię?
Markiz de Carabas,
2
Masz liczyć dane. Wyszukaj w tej witrynie regresję Poissona.
kjetil b halvorsen

Odpowiedzi:

11

Regresja liniowa nie jest właściwym wyborem dla twojego wyniku, biorąc pod uwagę:

  1. Zmienna wynikowa nie jest zwykle rozkładana
  2. Zmienna wynikowa jest ograniczona wartościami, które może przyjmować (zliczanie danych oznacza, że ​​przewidywane wartości nie mogą być ujemne)
  3. Co wydaje się być wysoką częstością przypadków z 0 wizytami

Modele zmiennych zależnych o ograniczonym zakresie do zliczania danych

Wybór strategii oceny jest podyktowany „strukturą” zmiennej wynikowej. Oznacza to, że jeśli twoja zmienna wyniku jest ograniczona wartościami, które może przyjąć (tj. Jeśli jest to zmienna zależna ograniczona ), musisz wybrać model, w którym przewidywane wartości mieszczą się w możliwym zakresie wyniku. Chociaż czasami regresja liniowa jest dobrym przybliżeniem dla zmiennych zależnych (na przykład w przypadku binarnego logit / probit), często tak nie jest. Wprowadź uogólnione modele liniowe . W twoim przypadku, ponieważ zmienną wynikową są dane zliczania, masz kilka możliwości:

  1. Model Poissona
  2. Negatywny model dwumianowy
  3. Model Zero Inflated Poisson (ZIP)
  4. Model dwumianowy o zerowym napełnieniu ujemnym (ZINB)

Wybór jest zwykle ustalany empirycznie. Poniżej krótko omówię wybór pomiędzy tymi opcjami.


Poisson vs. Negative Binomial

θH0:θ=0H1:θ0θ

ZIP vs. ZINB

Jednym z potencjalnych komplikacji jest zerowa inflacja, która może być tutaj problemem. W tym miejscu pojawiają się modele ZIP i ZINB z napompowaniem zera. Korzystając z tych modeli, zakładasz, że proces generujący wartości zerowe jest odrębny od procesu generującego inne, niezerowe wartości. Tak jak poprzednio, ZINB jest odpowiedni, gdy wynik ma nadmierne zera i jest rozproszony, podczas gdy ZIP jest odpowiedni, gdy wynik ma nadmierne zera, ale średnia warunkowa = wariancja warunkowa. W przypadku modeli z zerowym napełnieniem, oprócz wymienionych powyżej zmiennych towarzyszących modelu, musisz pomyśleć o zmiennych, które mogły wygenerować nadmiar zer, które zobaczyłeś w wyniku. Ponownie istnieją testy statystyczne, które są dostarczane z danymi wyjściowymi tych modeli (czasami może być konieczne ich określenie podczas wykonywania polecenia), które pozwolą ciθ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

Wreszcie, nie używam R, ale IDRE na stronie przykładów analizy danych UCLA może pomóc ci w dopasowaniu tych modeli.

[Edytuj przez innego użytkownika, który nie ma wystarczającej reputacji, aby móc komentować: W tym dokumencie wyjaśniono, dlaczego nie należy używać testu Vuonga do porównania modelu z zerową inflacją i podano alternatywy.

P. Wilson, „Niewłaściwe użycie testu Vuong dla modeli nie zagnieżdżonych do testowania zerowej inflacji”. Economics Letters, 2015, vol. 127, wydanie C, 51–53 ]

Markiz de Carabas
źródło
większość to 2 ~ wizyty. Wszystkie rekordy to więcej niż 1 wizyta
pxxd 13.04.16
Dostaję podobne wykresy qq zarówno dla światła Poissona, jak i gamma, czy to w porządku?
pxxd
3
1. Zmienna wynikowa zwykle nie jest rozkładem normalnym, nie jest sama w sobie ważnym argumentem przeciwko regresji liniowej. Zestaw założeń regresji, który gwarantuje ładne właściwości estymatora (takie jak spójność i normalność asymptotyczna), nie obejmuje normalności zmiennej wynikowej (a nawet normalności błędów).
Richard Hardy,
2

Wypróbuj uogólniony model liniowy z rozkładem gamma. Może dobrze przybliżać zmienną zależną, ponieważ jest dodatnia i wynosi zero przy x = 0. Użyłem R i GLM z pewnym powodzeniem w podobnej sprawie.

Diego
źródło
Visits d
1
Nie, uważam, że nie powinieneś używać linku dziennika, a raczej linku tożsamości. Ale najpierw sprawdź, jak dobrze funkcja gamma pasuje do twojej dystrybucji.
Diego
0

Wszystkie założenia statystyczne dotyczą błędów z modelu. Jeśli zbudujesz prosty model z wykorzystaniem 6 serii wskaźników odzwierciedlających dzień tygodnia ... zaczniesz widzieć znacznie ładniejszy rozkład błędów. Włączaj comiesięczne efekty i efekty wakacyjne (PRZED, NA I PO), a dystrybucja błędów stanie się jeszcze przyjemniejsza. Dodanie wskaźników miesiąca, tygodnia, długiego weekendu i jeszcze bardziej się poprawi.

Spójrz na Prostą metodę prognozowania liczby gości na podstawie aktualnych i historycznych danych oraz https://stats.stackexchange.com/search?q=user%3A3382+daily+data dla większej przyjemności z czytania.

IrishStat
źródło
1
Ta odpowiedź wydaje się nie dotyczyć faktycznie zadanego pytania. Czy możesz podać wyraźne połączenie?
whuber
Wziąłem jego DVISITS, aby zasugerować codzienne dane ... jeśli tak nie jest, cofam moją odpowiedź. Jeśli jest naprawdę przekrojowy ... to może powinien rozważyć stratyfikację danych według głównych klasyfikacji.
IrishStat