Mam badanie, w którym reprezentowanych jest wiele wyników, takich jak procenty, i używam wielu regresji liniowych, aby ocenić wpływ niektórych zmiennych kategorialnych na te wyniki.
Zastanawiałem się, skoro regresja liniowa zakłada, że wynikiem jest rozkład ciągły, czy istnieją problemy metodologiczne przy stosowaniu takiego modelu do wartości procentowych, które są ograniczone od 0 do 100?
regression
ratio
percentage
Bakaburg
źródło
źródło
Odpowiedzi:
Zajmę się kwestiami związanymi z możliwością dyskretną lub ciągłą:
Problem z opisem średniej
Masz ograniczoną odpowiedź. Ale model, który dopasowujesz, nie jest ograniczony, więc może przebić się przez granicę; niektóre z dopasowanych wartości mogą być niemożliwe, a wartości prognozowane ostatecznie muszą być.
Prawdziwa relacja musi w końcu stać się bardziej płaska niż w środku, gdy zbliża się do granic, więc można się spodziewać, że zakrzywi się w jakiś sposób.
Problem z opisem wariancji
Gdy średnia zbliża się do granicy, wariancja również będzie się zmniejszać, a inne rzeczy będą równe. Jest mniej miejsca między średnią a granicą, więc ogólna zmienność ma tendencję do zmniejszania się (w przeciwnym razie średnia byłaby zwykle odciągana od granicy przez punkty znajdujące się średnio dalej po stronie, która nie jest blisko granicy.
(Rzeczywiście, gdyby wszystkie wartości populacji w niektórych okolicach były dokładnie na granicy, wariancja byłaby zerowa).
Model, który dotyczy takiej granicy, powinien wziąć pod uwagę takie efekty.
Jeśli proporcja dotyczy zmiennej zliczającej, powszechnym modelem rozkładu proporcji jest dwumianowy GLM. Istnieje kilka opcji dla formy zależności między średnią proporcją a predyktorami, ale najczęstszą z nich byłaby logistyczna GLM (kilka innych opcji jest w powszechnym użyciu).
Jeśli proporcja jest ciągła (np. Procent śmietany w mleku), istnieje wiele opcji. Regresja beta wydaje się być dość powszechnym wyborem. Ponownie może użyć logistycznej relacji między średnią a predyktorami lub może użyć innej formy funkcjonalnej.
Zobacz także regresję dla wyniku (stosunek lub ułamek) między 0 a 1 .
źródło
Jest to dokładnie to samo, co w przypadku, gdy wynik mieści się w przedziale od 0 do 1, a przypadek ten jest zazwyczaj obsługiwany za pomocą uogólnionego modelu liniowego (GLM), takiego jak regresja logistyczna. Istnieje wiele doskonałych starterów do regresji logistycznej (i innych GLM) w Internecie, a także znana książka Agresti na ten temat.
Regresja beta jest realną, ale bardziej skomplikowaną alternatywą. Możliwe, że regresja logistyczna zadziała dobrze dla Twojej aplikacji i zazwyczaj będzie łatwiejsza do wdrożenia w przypadku większości programów statystycznych.
Dlaczego nie zastosować zwykłej regresji metodą najmniejszych kwadratów? W rzeczywistości ludzie tak robią, czasami pod nazwą „liniowy model prawdopodobieństwa” (LPM). Najbardziej oczywistym powodem, dla którego LPM są „złe”, jest to, że nie ma łatwego sposobu, aby ograniczyć wynik do określonego zakresu i można uzyskać prognozy powyżej 1 (lub 100% lub dowolnej innej skończonej górnej granicy) i poniżej 0 (lub inne dolne ograniczenie). Z tego samego powodu prognozy w pobliżu górnej granicy wydają się być systematycznie zbyt wysokie, a prognozy w pobliżu dolnej granicy są zwykle zbyt niskie. Matematyka leżąca u podstaw regresji liniowej wyraźnie zakłada, że takie tendencje nie istnieją. Zwykle nie ma dobrego powodu, aby dopasować LPM do regresji logistycznej.
Nawiasem mówiąc, okazuje się, że wszystkie modele regresji OLS, w tym LPM, można zdefiniować jako specjalny rodzaj GLM, i w tym kontekście LPM są powiązane z regresją logistyczną.
źródło
Warto zbadać regresję beta (dla której rozumiem, że istnieje pakiet R), która wydaje się dobrze dopasowana do takich problemów.
http://www.jstatsoft.org/v34/i02/paper
źródło