Z trudem próbuję zrozumieć zastosowanie regresji logistycznej w pracy. Artykuł dostępny tutaj wykorzystuje regresję logistyczną do przewidywania prawdopodobieństwa powikłań podczas operacji zaćmy.
To, co mnie dezorientuje, to fakt, że artykuł przedstawia model, który przypisuje iloraz szans 1 do linii bazowej opisanej następująco:
Pacjenta, którego profil ryzyka był w grupie odniesienia dla wszystkich wskaźników ryzyka (tj. Skorygowany OR = 1,00 dla wszystkich w tabeli 1), można uznać za posiadający „wyjściowy profil ryzyka”, a model regresji logistycznej wskazuje „przewidywane prawdopodobieństwo wyjściowe” dla PCR lub VL lub obu = 0,736%.
Prawdopodobieństwo 0,00736 przedstawiono przy ilorazie szans równym 1. Na podstawie transformacji z prawdopodobieństwa na iloraz szans: , nie może to być równe 1: .
Robi się to jeszcze bardziej mylące. Złożony iloraz szans, który reprezentuje wiele zmiennych towarzyszących o wartościach innych niż poziom podstawowy, stosuje się do obliczenia przewidywanego ryzyka.
... złożony OR z tabeli 1 wyniósłby 1,28 x 1,58 x 2,99 x 2,46 x 1,45 x 1,60 = 34,5, a z wykresu na rycinie 1 widzimy, że ta OR odpowiada przewidywanemu prawdopodobieństwu PCR lub VL lub obu około 20%
Jedynym sposobem na uzyskanie wartości podanych w artykule jako przykładów jest pomnożenie wyjściowego prawdopodobieństwa przez złożone kursy takie jak to: .
Więc co tu się dzieje? Jaka jest logika przypisywania ilorazu szans 1 do wyjściowego prawdopodobieństwa, które nie jest równe 0,5? Formuła aktualizacji, którą wymyśliłem powyżej, zawiera odpowiednie prawdopodobieństwa dla przykładów w artykule, ale nie jest to bezpośrednie zwielokrotnienie ilorazu szans. Co to jest?
źródło
Odpowiedzi:
Kursy są sposobem na wyrażenie szans. Stosunki szans są takie: jeden kurs podzielony przez drugi. Oznacza to, że iloraz szans jest pomnożony przez jeden kurs, aby uzyskać inny. Zobaczmy, jak działają w tej wspólnej sytuacji.
Przeliczanie szans i prawdopodobieństw
Równoważne wyrażenie po prawej stronie pokazuje, że wystarczy model aby znaleźć szanse. I odwrotnie, pamiętaj, że możemy rozwiązaćPr(Y=1)
Regresja logistyczna
Regresja logistyczna modeluje logarytm szansy jako liniowej funkcji zmiennych objaśniających. , pisząc te zmienne jako i włączając możliwy stały wyraz w funkcji liniowej, możemy nazwać współczynniki (które należy oszacować na podstawie danych) jako i . Formalnie tworzy to modelx 1 , … , x p β 1 , … , β p β 0Y x1,…,xp β1,…,βp β0
Same szanse można odzyskać, cofając logarytm:
Korzystanie ze zmiennych jakościowych
Zmienne kategorialne, takie jak grupa wiekowa, płeć, obecność jaskry itp. , Włącza się za pomocą „kodowania zastępczego”. Aby pokazać, że sposób kodowania zmiennej nie ma znaczenia, przedstawię prosty przykład jednej małej grupy; uogólnienie na wiele grup powinno być oczywiste. W tym badaniu jedną zmienną jest „wielkość źrenicy” z trzema kategoriami: „Duża”, „Średnia” i „Mała”. (Badanie traktuje je jako czysto kategoryczne, najwyraźniej nie zwracając uwagi na ich naturalną kolejność.) Intuicyjnie, każda kategoria ma swoje własne szanse, powiedz dla „Large”, dla „Medium” i dla „Small” . Oznacza to, że wszystkie inne rzeczy są równe,α M α S.αL αM αS
dla każdego w kategorii „Duża”,
dla każdego w kategorii „Medium” oraz
dla osób z kategorii „Małe”.
Tworzenie możliwych do zidentyfikowania współczynników
Pokolorowałem pierwsze dwa współczynniki, aby je podświetlić, ponieważ chcę, abyście zauważyli, że pozwalają one na prostą zmianę: możemy wybrać dowolną liczbę , dodając ją do i odejmując od każdego z , i , nie zmienilibyśmy żadnych przewidywanych szans. Wynika to z oczywistych równoważników formyβ 0 α Lγ β0 αL α SαM αS
itp. Chociaż nie stanowi to problemu dla modelu - nadal przewiduje dokładnie te same rzeczy - pokazuje, że parametry same w sobie nie są interpretowalne. Po wykonaniu tego manewru dodawania i odejmowania pozostają te same różnice między współczynnikami. Konwencjonalnie, aby zaradzić temu brakowi identyfikowalności, ludzie (i domyślnie oprogramowanie) wybierają jedną z kategorii w każdej zmiennej jako „podstawową” lub „referencyjną” i po prostu zastrzegają, że jej współczynnik wyniesie zero. To usuwa dwuznaczność.
W artykule wymieniono najpierw kategorie referencyjne; „Duży” w tym przypadku. Tak więc jest odejmowane od każdego z i i dodawane do celu kompensacji.α L , α M , α S β 0αL αL,αM, αS β0
szanse dla hipotetycznej osoby do wszystkich podstawowych kategorii zatem plus kilka terminów związanych ze wszystkimi innymi „zmiennymi towarzyszącymi” - zmiennymi :β0
Nie pojawiają się tutaj terminy związane z żadnymi zmiennymi kategorialnymi. (W tym momencie nieznacznie zmieniłem notację: beta są teraz współczynnikami tylko zmiennych towarzyszących , podczas gdy pełny model zawiera dla różnych kategorii).βi αj
Porównywanie szans
Porównajmy szanse. Załóżmy, że hipotetyczna osoba to
Z tym pacjentem (nazwijmy go Charlie) związane są szacunkowe współczynniki dla każdej kategorii: dla jego grupy wiekowej, za bycie mężczyzną i tak dalej. Wszędzie tam, gdzie jego atrybut jest podstawą dla jego kategorii, zgodnie z konwencją współczynnik wynosi zero , jak widzieliśmy. Ponieważ jest to model liniowy, współczynniki się dodają. Tak więc, do podanych powyżej podstawowych logarytmicznych szans logarytmicznych dla tego pacjenta uzyskuje się przez dodanieα80-89 αmale
Jest to dokładnie kwota, o którą dzienne szanse tego pacjenta różnią się od podstawy. Aby przeliczyć z logarytmów, cofnij logarytm i przypomnij sobie, że zamienia to dodawanie w mnożenie. Dlatego kurs podstawowy należy pomnożyć
Są to liczby podane w tabeli pod „Skorygowanym OR” (skorygowany iloraz szans). (Nazywa się to „skorygowane”, ponieważ w modelu uwzględniono zmienne towarzyszące . Nie odgrywają one żadnej roli w żadnym z naszych obliczeń, jak się przekonacie. Nazywa się to „współczynnikiem”, ponieważ jest to dokładnie które podstawowe szanse należy pomnożyć, aby uzyskać przewidywane szanse pacjenta: patrz pierwszy akapit tego postu.) W tabeli są to: , , i tak dalej. Zgodnie z artykułem ich produkt działa do . W związku z tymx1,…,xp exp(α80-89)=1.58 exp(αmale)=1.28 exp(αno Glaucoma)=1.00 34.5
(Zauważ, że wszystkie kategorie podstawowe mają iloraz szans , ponieważ włączenie do produktu pozostawia niezmienione. W ten sposób możesz dostrzec kategorie podstawowe w tabeli.)1.00=exp(0) 1
Przekształcenie wyników jako prawdopodobieństwa
Na koniec przekonwertujmy ten wynik na prawdopodobieństwa. Powiedziano nam, że przewidywane prawdopodobieństwo wynosi . Dlatego korzystając ze wzorów odnoszących się do szans i prawdopodobieństw wyprowadzonych na wstępie, możemy obliczyć0.736%=0.00736
W związku z tym szanse Charliego są
Wreszcie, przekształcenie tego z powrotem w prawdopodobieństwa daje
źródło