Czy można zastąpić model regresji logistycznej? Widziałem wideo z informacją, że jeśli mój obszar pod krzywą ROC jest większy niż 95%, to jest bardzo prawdopodobne, że będzie on nadmiernie dopasowany, ale czy można zastąpić model regresji logistycznej?
logistic
overfitting
regression-strategies
carlosedubarreto
źródło
źródło
Odpowiedzi:
Tak, możesz zastąpić modele regresji logistycznej. Ale najpierw chciałbym poruszyć kwestię AUC (Obszar pod krzywą charakterystyczną dla odbiornika): Nigdy nie ma uniwersalnych zasad dotyczących AUC.
AUC to prawdopodobieństwo, że losowo pobrana próbka dodatnia (lub przypadek) będzie miała wyższą wartość markera niż ujemna (lub kontrolna), ponieważ AUC jest matematycznie równoważne statystyce U.
To, czym nie jest AUC, to znormalizowana miara dokładności predykcyjnej. Zdarzenia wysoce deterministyczne mogą mieć AUC o wartości predykcyjnej pojedynczej równej 95% lub wyższej (np. W kontrolowanej mechatronice, robotyce lub optyce), niektóre złożone wielowymiarowe modele prognozowania ryzyka logistycznego mają AUC o wartości 64% lub mniejszej, takie jak przewidywanie ryzyka raka piersi, i są one odpowiednio wysoki poziom dokładności predykcyjnej.
Rozsądną wartość AUC, podobnie jak w przypadku analizy mocy, określa się wstępnie, gromadząc wiedzę na temat tła i celów badania apriori . Lekarz / inżynier opisuje, czego chcą, a Ty, statystyki, decydujesz o docelowej wartości AUC dla modelu predykcyjnego. Następnie rozpoczyna się dochodzenie.
Rzeczywiście możliwe jest zastąpienie modelu regresji logistycznej. Oprócz zależności liniowej (jeśli macierz modelu ma niewystarczającą rangę), możesz również mieć idealną zgodność, lub to jest wykres dopasowanych wartości w stosunku do Y doskonale rozróżnia przypadki i kontrole. W takim przypadku parametry nie są zbieżne, ale po prostu znajdują się gdzieś w przestrzeni granicznej, która daje prawdopodobieństwo . Czasami jednak AUC wynosi 1 przypadkowo.∞
Istnieje inny rodzaj błędu, który powstaje w wyniku dodania zbyt wielu predyktorów do modelu, a to jest małe odchylenie próbki. Zasadniczo iloraz szans logarytmicznych modelu regresji logistycznej dąży do uzyskania tendencyjnego współczynnika ze względu na nieupadalność współczynnika szans i zerową liczbę komórek. Wnioskuje się, że jest to obsługiwane przy użyciu warunkowej regresji logistycznej w celu kontrolowania zmiennych mylących i precyzyjnych w analizach warstwowych. Jednak w przewidywaniach jesteś SooL. Nie ma uogólnionej prognozy, gdy masz p ≫ n π ( 1 - π ) , ( π = Prob ( Y = 1 )2 β p ≫ n π( 1 - π) π= Prob ( Y= 1 ) ), ponieważ masz zagwarantowane modelowanie „danych”, a nie „trendu” w tym momencie. Przewidywanie wysokowymiarowych (dużych ) wyników binarnych jest lepsze w przypadku metod uczenia maszynowego. Zrozumienie liniowej analizy dyskryminacyjnej, częściowych najmniejszych kwadratów, prognoz najbliższego sąsiada, wzmocnienia i losowych lasów byłoby bardzo dobrym miejscem do rozpoczęcia.p
źródło
Krótko mówiąc… przebudowany model regresji logistycznej ma dużą wariancję, co oznacza zmiany granic decyzji w dużej mierze dla niewielkiej zmiany zmiennej wielkości. rozważ następujący obraz, ponieważ najbardziej odpowiedni jest przeładowany model logistyczny, jego granice decyzyjne mają duże nie. wzlotów i upadków, podczas gdy środkowy model jest po prostu sprawny, ma umiarkowaną wariancję i umiarkowane odchylenie. lewy jest niedopasowany, ma duże odchylenie, ale bardzo mniej wariancji. jeszcze jedna rzecz: Model zbyt mocnego regresu ma zbyt wiele funkcji, podczas gdy model underfit ma bardzo mało. funkcji.
źródło
Możesz dopasować się dowolną metodą, nawet jeśli pasuje do całej populacji (jeśli populacja jest skończona). Istnieją dwa ogólne rozwiązania tego problemu: (1) ukarane oszacowanie maksymalnego prawdopodobieństwa (regresja kalenicy, siatka elastyczna, lasso itp.) Oraz (2) zastosowanie informacyjnych priorów z modelem bayesowskim.
źródło
Czy istnieje jakiś model, pomijając regresję logistyczną, że nie można się przeregulować?
Nadmierne dopasowanie powstaje zasadniczo dlatego, że pasuje się do próby, a nie całej populacji. Artefakty z twojej próbki mogą wydawać się cechami populacji i nie są, a zatem nadmiernym bólem.
Jest to podobne do kwestii zewnętrznej ważności. Korzystając tylko z próbki, próbujesz uzyskać model, który zapewnia najlepszą wydajność w rzeczywistej populacji, której nie możesz zobaczyć.
Jasne, niektóre formy modeli lub procedury są bardziej prawdopodobne niż inne, ale żaden model nigdy nie jest naprawdę odporny na nadmierne dopasowanie, prawda?
Nawet walidacja poza próbą, procedury regularyzacji itp. Mogą jedynie uchronić przed nadmiernym dopasowaniem, ale nie ma srebrnej kuli. W rzeczywistości, jeśli ktoś ma oszacować swoje zaufanie w tworzeniu rzeczywistej prognozy na podstawie dopasowanego modelu, zawsze należy założyć, że rzeczywiście doszło do pewnego stopnia przeregulowania.
W jakim stopniu mogą się różnić, ale nawet model zweryfikowany na zbędnym zestawie danych rzadko daje wydajność w stanie dzikim, która odpowiada temu, co zostało uzyskane na zbiorze danych podtrzymujących. A nadmierne dopasowanie to duży czynnik sprawczy.
źródło
To, co robimy z Rocem, aby sprawdzić, czy nie jest za dużo, polega na losowym oddzieleniu zestawu danych podczas szkolenia i oceny oraz porównaniu AUC między tymi grupami. Jeśli AUC jest „znacznie” (nie ma też ogólnej zasady) większego treningu, może wystąpić przeregulowanie.
źródło