Próba obliczenia liczby odwiedzin na podstawie danych demograficznych i usług. Dane są bardzo wypaczone.
Histogramy:
wykresy qq (po lewej jest log):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
i service
są zmiennymi czynnikowymi.
Otrzymuję niską wartość p *** dla wszystkich zmiennych, ale dostaję także niski r-kwadrat wynoszący 0,05. Co powinienem zrobić? Czy zadziałałby inny model, na przykład wykładniczy czy coś takiego?
Odpowiedzi:
Regresja liniowa nie jest właściwym wyborem dla twojego wyniku, biorąc pod uwagę:
Modele zmiennych zależnych o ograniczonym zakresie do zliczania danych
Wybór strategii oceny jest podyktowany „strukturą” zmiennej wynikowej. Oznacza to, że jeśli twoja zmienna wyniku jest ograniczona wartościami, które może przyjąć (tj. Jeśli jest to zmienna zależna ograniczona ), musisz wybrać model, w którym przewidywane wartości mieszczą się w możliwym zakresie wyniku. Chociaż czasami regresja liniowa jest dobrym przybliżeniem dla zmiennych zależnych (na przykład w przypadku binarnego logit / probit), często tak nie jest. Wprowadź uogólnione modele liniowe . W twoim przypadku, ponieważ zmienną wynikową są dane zliczania, masz kilka możliwości:
Wybór jest zwykle ustalany empirycznie. Poniżej krótko omówię wybór pomiędzy tymi opcjami.
Poisson vs. Negative Binomial
ZIP vs. ZINB
Jednym z potencjalnych komplikacji jest zerowa inflacja, która może być tutaj problemem. W tym miejscu pojawiają się modele ZIP i ZINB z napompowaniem zera. Korzystając z tych modeli, zakładasz, że proces generujący wartości zerowe jest odrębny od procesu generującego inne, niezerowe wartości. Tak jak poprzednio, ZINB jest odpowiedni, gdy wynik ma nadmierne zera i jest rozproszony, podczas gdy ZIP jest odpowiedni, gdy wynik ma nadmierne zera, ale średnia warunkowa = wariancja warunkowa. W przypadku modeli z zerowym napełnieniem, oprócz wymienionych powyżej zmiennych towarzyszących modelu, musisz pomyśleć o zmiennych, które mogły wygenerować nadmiar zer, które zobaczyłeś w wyniku. Ponownie istnieją testy statystyczne, które są dostarczane z danymi wyjściowymi tych modeli (czasami może być konieczne ich określenie podczas wykonywania polecenia), które pozwolą ciθ
Wreszcie, nie używam R, ale IDRE na stronie przykładów analizy danych UCLA może pomóc ci w dopasowaniu tych modeli.
[Edytuj przez innego użytkownika, który nie ma wystarczającej reputacji, aby móc komentować: W tym dokumencie wyjaśniono, dlaczego nie należy używać testu Vuonga do porównania modelu z zerową inflacją i podano alternatywy.
P. Wilson, „Niewłaściwe użycie testu Vuong dla modeli nie zagnieżdżonych do testowania zerowej inflacji”. Economics Letters, 2015, vol. 127, wydanie C, 51–53 ]
źródło
Wypróbuj uogólniony model liniowy z rozkładem gamma. Może dobrze przybliżać zmienną zależną, ponieważ jest dodatnia i wynosi zero przy x = 0. Użyłem R i GLM z pewnym powodzeniem w podobnej sprawie.
źródło
Wszystkie założenia statystyczne dotyczą błędów z modelu. Jeśli zbudujesz prosty model z wykorzystaniem 6 serii wskaźników odzwierciedlających dzień tygodnia ... zaczniesz widzieć znacznie ładniejszy rozkład błędów. Włączaj comiesięczne efekty i efekty wakacyjne (PRZED, NA I PO), a dystrybucja błędów stanie się jeszcze przyjemniejsza. Dodanie wskaźników miesiąca, tygodnia, długiego weekendu i jeszcze bardziej się poprawi.
Spójrz na Prostą metodę prognozowania liczby gości na podstawie aktualnych i historycznych danych oraz https://stats.stackexchange.com/search?q=user%3A3382+daily+data dla większej przyjemności z czytania.
źródło