Jakie są problemy ze stosowaniem wyniku procentowego w regresji liniowej?

11

Mam badanie, w którym reprezentowanych jest wiele wyników, takich jak procenty, i używam wielu regresji liniowych, aby ocenić wpływ niektórych zmiennych kategorialnych na te wyniki.

Zastanawiałem się, skoro regresja liniowa zakłada, że ​​wynikiem jest rozkład ciągły, czy istnieją problemy metodologiczne przy stosowaniu takiego modelu do wartości procentowych, które są ograniczone od 0 do 100?

Bakaburg
źródło
1
Czy te wartości procentowe są ciągłe (jak na przykład procent śmietany w mleku), czy dyskretne (jak proporcje dwumianowe, liczba w jakiejś kategorii z ogólnej liczby)?
Glen_b
1
Uhm ... nie rozumiem różnicy. Czy oba nie są ciągłe? W każdym razie myślę, że drugi lepiej opisuje moje dane, ponieważ mówimy o ludziach w ogóle.
Bakaburg
Rozkład liczby podzielony przez liczby jest zdecydowanie dyskretny. Rzeczywiście, licznik jest zwykle modelowany jako dwumianowy, mianownik jest uwarunkowany (traktowany jako stały), więc stosunek jest zwykle traktowany jako skalowany dwumianowy. Jednak nawet jeśli mianownik byłby również zmienną losową, stosunek byłby nadal dyskretny, ponieważ jego przestrzeń próbki jest policzalna
Glen_b

Odpowiedzi:

17

Zajmę się kwestiami związanymi z możliwością dyskretną lub ciągłą:

  1. Problem z opisem średniej

    Masz ograniczoną odpowiedź. Ale model, który dopasowujesz, nie jest ograniczony, więc może przebić się przez granicę; niektóre z dopasowanych wartości mogą być niemożliwe, a wartości prognozowane ostatecznie muszą być.

    Prawdziwa relacja musi w końcu stać się bardziej płaska niż w środku, gdy zbliża się do granic, więc można się spodziewać, że zakrzywi się w jakiś sposób.

  2. Problem z opisem wariancji

    Gdy średnia zbliża się do granicy, wariancja również będzie się zmniejszać, a inne rzeczy będą równe. Jest mniej miejsca między średnią a granicą, więc ogólna zmienność ma tendencję do zmniejszania się (w przeciwnym razie średnia byłaby zwykle odciągana od granicy przez punkty znajdujące się średnio dalej po stronie, która nie jest blisko granicy.

(Rzeczywiście, gdyby wszystkie wartości populacji w niektórych okolicach były dokładnie na granicy, wariancja byłaby zerowa).

Model, który dotyczy takiej granicy, powinien wziąć pod uwagę takie efekty.

Jeśli proporcja dotyczy zmiennej zliczającej, powszechnym modelem rozkładu proporcji jest dwumianowy GLM. Istnieje kilka opcji dla formy zależności między średnią proporcją a predyktorami, ale najczęstszą z nich byłaby logistyczna GLM (kilka innych opcji jest w powszechnym użyciu).

Jeśli proporcja jest ciągła (np. Procent śmietany w mleku), istnieje wiele opcji. Regresja beta wydaje się być dość powszechnym wyborem. Ponownie może użyć logistycznej relacji między średnią a predyktorami lub może użyć innej formy funkcjonalnej.

Zobacz także regresję dla wyniku (stosunek lub ułamek) między 0 a 1 .

Glen_b - Przywróć Monikę
źródło
1
+1 i pozwoliłem sobie dodać link do czegoś, co może być postrzegane jako nasz „mistrzowski” wątek na ten temat (odpowiedź Gunga obejmuje również beta i opcje logistyczne).
ameba
2
Prostym ogólnym argumentem jest to, że średnia wynosi 0, co jest możliwe tylko wtedy, gdy wszystkie wartości wynoszą 0, i podobnie z 1 = 100%, a wszystkie wartości wynoszą 1. Zatem wariancja musi wynosić 0 w skrajnościach, niezależnie od tego, czy proporcje są oparte na liczenie lub mierzenie. Chociaż możliwe jest, że wszystkie inne wartości są stałe, w praktyce jest to bardzo rzadkie. Stąd wariancja będzie najwyższa dla pewnej wartości między 0 a 1.
Nick Cox
czy byłbyś w stanie podać odniesienia do 2 opisanych problemów?
user1607
3

Jest to dokładnie to samo, co w przypadku, gdy wynik mieści się w przedziale od 0 do 1, a przypadek ten jest zazwyczaj obsługiwany za pomocą uogólnionego modelu liniowego (GLM), takiego jak regresja logistyczna. Istnieje wiele doskonałych starterów do regresji logistycznej (i innych GLM) w Internecie, a także znana książka Agresti na ten temat.

Regresja beta jest realną, ale bardziej skomplikowaną alternatywą. Możliwe, że regresja logistyczna zadziała dobrze dla Twojej aplikacji i zazwyczaj będzie łatwiejsza do wdrożenia w przypadku większości programów statystycznych.

Dlaczego nie zastosować zwykłej regresji metodą najmniejszych kwadratów? W rzeczywistości ludzie tak robią, czasami pod nazwą „liniowy model prawdopodobieństwa” (LPM). Najbardziej oczywistym powodem, dla którego LPM są „złe”, jest to, że nie ma łatwego sposobu, aby ograniczyć wynik do określonego zakresu i można uzyskać prognozy powyżej 1 (lub 100% lub dowolnej innej skończonej górnej granicy) i poniżej 0 (lub inne dolne ograniczenie). Z tego samego powodu prognozy w pobliżu górnej granicy wydają się być systematycznie zbyt wysokie, a prognozy w pobliżu dolnej granicy są zwykle zbyt niskie. Matematyka leżąca u podstaw regresji liniowej wyraźnie zakłada, że ​​takie tendencje nie istnieją. Zwykle nie ma dobrego powodu, aby dopasować LPM do regresji logistycznej.

Nawiasem mówiąc, okazuje się, że wszystkie modele regresji OLS, w tym LPM, można zdefiniować jako specjalny rodzaj GLM, i w tym kontekście LPM są powiązane z regresją logistyczną.

Shadowtalker
źródło
4
Chociaż ogólnie większość tej odpowiedzi wydaje się opłacalna, zawiera ona pewne dezinformacje, które mogą wprowadzić czytelników w błąd. Rachunek regresji logistycznej w pierwszym akapicie brzmi jak opis logarytmicznej transformacji zmiennej zależnej, po której następuje regresja liniowa: nie jest to regresja logistyczna. Interpretacja współczynników też nie jest do końca właściwa. Ważniejszym problemem związanym z „LPM” jest to, że gdy dane są bliskie skrajności, prawdopodobnie wykazują asymetryczne rozkłady reszt, co jest ważnym naruszeniem iidowego założenia regresji.
whuber
Nie sądziłem, że warto wchodzić w iloraz szans i tym podobne. Po prostu rozbiorę te rzeczy i pozwolę OP to przeczytać. Również dobra uwaga na temat pozostałości.
shadowtalker
(+1) Dziękujemy za konstruktywne odpowiedzi!
whuber
2

Warto zbadać regresję beta (dla której rozumiem, że istnieje pakiet R), która wydaje się dobrze dopasowana do takich problemów.

http://www.jstatsoft.org/v34/i02/paper

Dikran Torbacz
źródło
7
Odpowiedź byłaby jeszcze lepsza, gdybyś natknął się na niektóre z głównych powodów, dla których regresja liniowa cierpi, gdy wynik jest procentowy.
Alexis