Zerowana regresja Poissona

14

Załóżmy, że są niezależne iY=(Y1,,Yn)

Yi=0with probability pi+(1pi)eλiYi=kwith probability (1pi)eλiλik/k!

Również załóżmy PARAMETRY i P = ( P 1 , ... , p n ) zaspokoićλ=(λ1,,λn)p=(p1,,pn)

log(λ)=Bβlogit(p)=log(p/(1p))=Gλ.

Jeśli te same zmienne towarzyszące wpływają na i p, tak że B = G , to dlaczego regresja Poissona z zawyżoną wartością wymaga dwukrotnie więcej parametrów niż regresja Poissona?λpB=G

Damien
źródło
2
Nadal musisz oszacować i λ . B i G są macierzami projektowymi (danymi), więc ich równość nie zmniejsza wymiaru przestrzeni parametrów. βλBG
Makro
@Macro: Jeśli jest kolumną jedności, to dlaczego potrzebujemy 1 dodatkowego parametru do oszacowania niż regresja Poissona? G
Damien,
cóż, trzeba oszacować („punkt przecięcia” w części logistycznej modelu) i λ i („punkt przecięcia” w części Poissona modelu), więc są 2 parametry zamiast 1.piλi
Macro
1
@Robby, aby zmniejszyć liczbę parametrów, musisz wprowadzić pewne ograniczenia. Na przykład , chociaż nie ma powodu, aby sądzić, że ma to sens - zwłaszcza, że ​​funkcje łączenia są różne. λ=β
Makro,
3
@MichaelChernick - nazywa się to Poissonem o napompowaniu zerowym, ponieważ w zasadzie „pompujesz” prawdopodobieństwo zobaczenia zera odległości Poissona przy zachowaniu takich samych względnych prawdopodobieństw zobaczenia niezerowej wartości jak Poissona.
jbowman

Odpowiedzi:

2

W przypadku zerowej nadmuchanym Poissona jeśli , a następnie β i λ oba mają tę samą długość, która jest liczbą kolumn B i G . Zatem liczba parametrów jest dwa razy większa niż liczba kolumn macierzy projektowej, tj. Dwa razy większa liczba zmiennych objaśniających, w tym punkt przecięcia (i wszelkie potrzebne kodowanie pozorne).B=GβλBG

W prostej regresji Poissona nie trzeba się martwić o wektor , nie trzeba szacować λ . Zatem liczba parametrów jest tylko długością β, tj. Połową liczby parametrów w przypadku nadmuchiwanego zera.pλβ

Teraz nie ma konkretnego powodu, dla którego musi być równe G , ale ogólnie ma to sens. Można jednak wyobrazić sobie proces generowania danych, w którym szansa na wystąpienie jakichkolwiek zdarzeń jest tworzona przez jeden proces G λ, a zupełnie inny proces B β określa liczbę zdarzeń, biorąc pod uwagę zdarzenia niezerowe. Jako wymyślony przykład wybieram klasy na podstawie ich wyników egzaminu z historii, aby zagrać w jakąś niepowiązaną grę, a następnie obserwuję liczbę zdobytych bramek. W tym przypadku B może być zupełnie inny niż G (jeśli wyniki egzaminacyjne w historii są inne niż wyniki w jeździe w grze) oraz β i λBGGλBβBGβλmoże mieć różne długości. może mieć więcej kolumn niż B lub mniej. Zatem zerowany model Poissona w tym przypadku będzie miał więcej parametrów niż prosty model Poissona.GB

W powszechnej praktyce myślę, że większość czasu.G=B

Peter Ellis
źródło