Chociaż wydaje się, że to pytanie i jego pierwsza odpowiedź dotyczą teoretycznych zagadnień kalibracji modelu regresji logistycznej, kwestia:
Jak zepsuć kalibrację regresji logistycznej ...?
zasługuje na uwagę w odniesieniu do aplikacji w świecie rzeczywistym, dla przyszłych czytelników tej strony. Nie powinniśmy zapominać, że model regresji logistycznej musi być dobrze sprecyzowany i że ten problem może być szczególnie kłopotliwy w przypadku regresji logistycznej.
Po pierwsze, jeśli iloraz szans członkostwa w klasie nie jest liniowo powiązany z predyktorami zawartymi w modelu, to nie będzie dobrze skalibrowany. Rozdział 10 Harrella, dotyczący binarnej regresji logistycznej, poświęca około 20 stron „Ocenie dopasowania modelu”, aby można było wykorzystać „asymptotyczną bezstronność estymatora maksymalnego prawdopodobieństwa”, jak to ujął @whuber w praktyce.
Po drugie, specyfikacja modelu jest szczególnym problemem w regresji logistycznej, ponieważ ma nieodłączne odchylenie zmienne, które może być zaskakujące dla osób posiadających tło w zwykłej regresji liniowej. Jak to ujęła ta strona:
Pominięte zmienne będą wpływać na współczynniki uwzględnionych zmiennych, nawet jeśli pominięte zmienne nie są skorelowane z włączonymi zmiennymi.
Strona ta zawiera również przydatne wyjaśnienie, dlaczego należy się spodziewać takiego zachowania, wraz z wyjaśnieniem teoretycznym dla powiązanych, możliwych do analizy modeli probitowych. Więc jeśli nie wiesz, że podałeś wszystkie predyktory związane z członkostwem w klasie, możesz spotkać się z niebezpieczeństwem błędnej specyfikacji i niewłaściwej kalibracji w praktyce.
Jeśli chodzi o specyfikację modelu, całkiem możliwe, że metody oparte na drzewach, takie jak losowy las, które nie zakładają liniowości w całym zakresie wartości predyktorów i z natury zapewniają możliwość znalezienia i włączenia interakcji między predyktorami, zakończą się lepszym- model kalibrowany w praktyce niż model regresji logistycznej, który nie uwzględnia w wystarczającym stopniu warunków interakcji lub nieliniowości. Jeśli chodzi o stronniczość zmiennych pomijanych, nie jest dla mnie jasne, czy jakakolwiek metoda oceny prawdopodobieństwa członkostwa w klasie może odpowiednio poradzić sobie z tym problemem.