Załóżmy, że są niezależne iY=(Y1,…,Yn)′
Yi=0Yi=kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!
Również załóżmy PARAMETRY i P = ( P 1 , ... , p n ) zaspokoićλ=(λ1,…,λn)′p=(p1,…,pn)
log(λ)logit(p)=Bβ=log(p/(1−p))=Gλ.
Jeśli te same zmienne towarzyszące wpływają na i p, tak że B = G , to dlaczego regresja Poissona z zawyżoną wartością wymaga dwukrotnie więcej parametrów niż regresja Poissona?λpB=G
Odpowiedzi:
W przypadku zerowej nadmuchanym Poissona jeśli , a następnie β i λ oba mają tę samą długość, która jest liczbą kolumn B i G . Zatem liczba parametrów jest dwa razy większa niż liczba kolumn macierzy projektowej, tj. Dwa razy większa liczba zmiennych objaśniających, w tym punkt przecięcia (i wszelkie potrzebne kodowanie pozorne).B=G β λ B G
W prostej regresji Poissona nie trzeba się martwić o wektor , nie trzeba szacować λ . Zatem liczba parametrów jest tylko długością β, tj. Połową liczby parametrów w przypadku nadmuchiwanego zera.p λ β
Teraz nie ma konkretnego powodu, dla którego musi być równe G , ale ogólnie ma to sens. Można jednak wyobrazić sobie proces generowania danych, w którym szansa na wystąpienie jakichkolwiek zdarzeń jest tworzona przez jeden proces G λ, a zupełnie inny proces B β określa liczbę zdarzeń, biorąc pod uwagę zdarzenia niezerowe. Jako wymyślony przykład wybieram klasy na podstawie ich wyników egzaminu z historii, aby zagrać w jakąś niepowiązaną grę, a następnie obserwuję liczbę zdobytych bramek. W tym przypadku B może być zupełnie inny niż G (jeśli wyniki egzaminacyjne w historii są inne niż wyniki w jeździe w grze) oraz β i λB G Gλ Bβ B G β λ może mieć różne długości. może mieć więcej kolumn niż B lub mniej. Zatem zerowany model Poissona w tym przypadku będzie miał więcej parametrów niż prosty model Poissona.G B
W powszechnej praktyce myślę, że większość czasu.G=B
źródło