Rozszerzenie regresji logistycznej dla wyników w zakresie od 0 do 1

9

Mam problem z regresją, w którym wyniki nie są ściśle 0, 1, ale raczej mieszczą się w zakresie wszystkich liczb rzeczywistych od 0 do 1 włącznie Y=[0,0,12,0,31,...,1].

Problem ten został już omówiony w tym wątku , chociaż moje pytanie jest nieco inne.

Nie mogę użyć regresji liniowej z tych samych powodów, dla których regresja logistyczna jest zwykle stosowana. W regresji liniowej A) bardzo duże wartości IV wypaczą przewidywany wynik do 1 i B) wynik regresji liniowej nie jest ograniczony do granic 0,1.

Patrząc na tę funkcję kosztów logistycznych z mojego podręcznika

Koszt=-ylog(h(x))-(1-y)log(1-h(x))
Rozumiem, że równanie ma na celu obliczenie kosztu większego niż 0 tylko wtedy, gdy y i x nie mają tej samej wartości 0 lub 1.

Czy byłoby możliwe zastosowanie regresji logistycznej poprzez modyfikację funkcji kosztu w celu zmierzenia wszystkich błędów hipotezy?

Robert Kubrick
źródło

Odpowiedzi:

9

Masz kilka opcji. Dwa z nich mogą być:

  1. Jeśli zmienisz swój Y przez log(y1-y) transformacja logistyczna, możesz spróbować dopasować regresję liniową za pomocą zwykłych najmniejszych kwadratów do tej transformowanej zmiennej odpowiedzi.
  2. Alternatywnie, możesz dopasować oryginalną zmienną do uogólnionego modelu liniowego z transformacją logistyczną jako zmienną link i ze związkiem między Ywariancja i oznacza to samo, jakby była zmienną dwumianową, pasującą do iteracyjnych, ponownie ważonych najmniejszych kwadratów. Jest to w zasadzie to samo, co „stosowanie regresji logistycznej”.

Który z nich będzie zależał od struktury błędów, a jedynym sposobem podjęcia decyzji jest dopasowanie ich obu i sprawdzenie, która z nich ma strukturę resztkową, która najlepiej pasuje do założeń modelu. Podejrzewam, że nie będzie wiele do wyboru. Z pewnością każda z tych opcji stanowiłaby duże ulepszenie prostej regresji liniowej z nietransformowanymiYz powodów, o których mówisz.

Peter Ellis
źródło
2
(+1) Opcja 2: Zazwyczaj szacujesz wtedy nadmierną dyspersję i używasz jej do obliczania błędów standardowych - model „quasi-dwumianowy”, w którym związek między wariancją Y a średnią jest proporcjonalny, a nie taki sam jak w przypadku zmienna dwumianowa.
Scortchi - Przywróć Monikę
@Scortchi: Czy taką glm()funkcję pełni R, gdy jest zasilany ciągłą odpowiedzią i family=quasibinomial? Czyli oszacuje współczynniki, family=binomiala następnie, w dodatkowym kroku, obliczy standardowe błędy z uwzględnieniem nadmiernej dyspersji? Jeśli tak, to czy to samo, co obliczanie „solidnych błędów standardowych”? Mam odpowiednie dane i wypróbowałem obie rodziny glm; Otrzymuję identyczne współczynniki, ale różne błędy standardowe. Dzięki.
ameba
1
@amoeba: Tak, to wszystko. Ale „solidne błędy standardowe” zwykle oznaczają użycie estymatora wielowarstwowego lub podobnego.
Scortchi - Przywróć Monikę
9

Gdy Y jest ograniczone, regresja beta często ma sens; zobacz artykuł „A Better Lemon Squeezer”

Pozwala to na efekty podłogowe i sufitowe; pozwala również modelować wariancję, a także średnią.

Peter Flom
źródło
0

Ponieważ y nie jest ściśle zerowe lub jeden (jak powiedziałeś) koszt powinien zawsze być większy niż zero. Więc nie sądzę, że potrzebujesz modyfikacji w modelu.

Metryka
źródło
0

Proponuję dwa alternatywne modele:

Jeśli twoje wyniki (zmienne y) są uporządkowane, wypróbuj model Zamówiony Probit.

Jeśli wyniki (zmienne y) nie są uporządkowane, wypróbuj model Login wielomianowy.

moc
źródło