Miałem kilka pytań dotyczących interpretacji ilorazów szans dla zmiennych ciągłych w regresji logistycznej. Wydaje mi się, że są to podstawowe pytania dotyczące regresji logistycznej (i prawdopodobnie ogólnie regresji) i chociaż wstydzę się nieco, że nie znam odpowiedzi, przełknę dumę i zapytam, aby je poznać przyszłość!
Oto moja sytuacja ... Patrzę na próbę osądzonej młodzieży, która w ramach okresu próbnego została zapisana na program szkolenia umiejętności zawodowych / życiowych. Chciałem zobaczyć, w jakim stopniu wiek, w którym zostali zwolnieni z programu, przewidywał zatrudnienie sześć miesięcy po zwolnieniu z programu.
(Pamiętaj również, że w modelu są inne predyktory, ale je wykluczyłem, ponieważ nie są one istotne statystycznie i chcę, aby było to jak najbardziej jasne).
Predyktor: wiek zwolnienia z programu treningowego (średni wiek = 17,4, SD = 1,2, zakres 14,3-20,5)
Wynik: zatrudniony czy nie (zatrudniony = 1, niezatrudniony = 0)
Wynik: iloraz szans 3,01 (p <0,005) (wykluczyłem statystyki dopasowania, itp., Ponieważ szukam odpowiedzi tylko na interpretację ilorazu szans; czuję się komfortowo z oceną dopasowania modelu, CI itp.)
Ujmując to słowami: wraz ze wzrostem wieku o jeden rok szanse na zatrudnienie sześć miesięcy po zwolnieniu wzrastają o trzy jednostki.
Pytania:
1) Kiedy mówię „Kiedy wiek wzrasta o rok ...”, jaki jest punkt wyjścia do wieku?
Czy wiek zaczyna się od zera? Na przykład: „Gdy wiek rośnie od 0 [tj. Najniższy wiek, jeśli miałbyś umieścić ten model na wykresie] ...”
Czy wiek zaczyna się od najniższego wieku spośród przedziałów wiekowych w próbie? Na przykład „Wraz ze wzrostem wieku z 14,3 ...”
LUB
Czy wiek zaczyna się od średniego wieku próbki? Na przykład „Wraz ze wzrostem wieku z 17,4 ...”,
2) Czy centrowanie pomogłoby mi zinterpretować ten wynik LUB czy jest to skuteczne tylko w interpretacji y-int? Jeśli to pomogłoby, zastanawiałem się nad centralnym wycięciem lub odjęciem najniższego wieku w przedziale od wszystkich innych grup wiekowych w próbie. Jakieś sugestie?
3) Wreszcie, czy należy powiedzieć, że w porównaniu z 14-letnią młodzieżą 17-letnia młodzież ma 9-krotnie większe szanse na zatrudnienie? Pytam, bo wiem, że regresja logistyczna zakłada związek sigmoidalny i jestem ciekawa, czy ten wzrost szans o 3 jednostki pozostaje spójny w dowolnym punkcie wzdłuż linii regresji.
Dzięki wielkie!
Aaron
źródło
Odpowiedzi:
1) Ponieważ jest to iloraz szans , nie ma znaczenia, od czego zaczynasz. Szanse dla 18-latka są 3 razy większe niż dla 17-latka. Lub szanse dla 17-latka są 1/3 tego dla 18-latka. Ta sama rzecz. Jeśli chcesz uzyskać prawdopodobieństwo zatrudnienia osoby w określonym wieku, możesz użyć formuły z oszacowaniami parametrów (nie OR). Lub możesz uzyskać program, którego używasz, aby zrobić to za Ciebie.
2) To, czy centrowanie pomaga, jest kwestią opinii. Nie wydaje mi się, aby wyśrodkowane modele były wyraźniejsze, ale niektórzy to robią.
3) Szanse nie są dokładnie takie same jak „prawdopodobne” (chociaż wiele osób mówi tak, jakby tak było), a szanse dla 17-latka byłyby 27 razy większe niż dla 14-latka.
Na koniec byłbym ostrożny co do tego modelu. Model zakłada, że OR jest taki sam między 14 a 15, 15 i 16 itd. Wydaje mi się to mało prawdopodobne na podstawie tego, co wiem na ten temat.
źródło
Średnie szanse na zapisanie się do problemu treningowego dla danej osoby są # razy większe niż dla innej osoby, która jest o rok młodsza / starsza, po utrzymaniu stałej wszystkich innych zmiennych.
To moje zdanie.
źródło