Czy regresja logistyczna maksymalizująca prawdopodobieństwo niekoniecznie maksymalizuje AUC w porównaniu z modelami liniowymi?

13

Biorąc pod uwagę zestaw danych z wynikami binarnymi i pewną macierzą predykcyjną , standardowy model regresji logistycznej szacuje współczynniki które maksymalizują prawdopodobieństwo dwumianowe. Gdy ma pełną pozycję, jest unikalny; gdy nie ma doskonałej separacji, jest skończona.y{0,1}nXRn×pβMLEXβMLE

Czy ten model maksymalnego prawdopodobieństwa maksymalizuje AUC ROC (aka statystyka), czy też istnieje jakiś współczynnik szacunkowy który pozwoli uzyskać wyższą AUC ROC? Jeśli prawdą jest, że MLE niekoniecznie maksymalizuje AUC ROC, to innym sposobem spojrzenia na to pytanie jest: „Czy istnieje alternatywa dla maksymalizacji prawdopodobieństwa, która zawsze maksymalizuje AOC ROC regresji logistycznej?”cβAUCβMLE

Zakładam, że modele są inaczej takie same: nie dodajemy ani nie usuwamy predyktorów w , ani w żaden inny sposób nie zmieniamy specyfikacji modelu, i zakładam, że modele maksymalizujące prawdopodobieństwo i maksymalizujące AUC używają tej samej funkcji łączenia.X

Sycorax mówi Przywróć Monikę
źródło
2
Z pewnością jeśli np. Jakaś funkcja link generuje lepsze dopasowanie niż logit? Poza tym dobre pytanie, czy proces generowania danych można uznać za logit. βAUCβMLE
Nutle
Dobre pytanie, ale zastanów się nad tym. ROC i AUC są używane do porównywania dwóch różnych modeli, więc jeśli rozwiązanie do szacowania MLE dowolnego modelu jest unikalne, oznacza to, że można uzyskać inny AUC tylko, jeśli zmienisz specyfikację bieżącego modelu i oszacujesz nowy inny model przez MLE. Zatem w tym momencie inne pytanie brzmiałoby: czy istnieje jakaś inna „lepsza” metoda szacowania (algorytm maksymalizacji ecc) inna niż zwykły MLE mający zastosowanie do tego samego modelu, tak że przechodzę do różnych oszacowań współczynników prowadzących do nowych „lepszych” betas z wyższym AUC?
Fr1
@Nutle dokładnie, że byłoby inną specyfikację
Fr1
@ Fr1 Tak, to właśnie oznacza unikalność. To, co sugeruję w moim pytaniu, to coś w rodzaju „co, jeśli istnieje jakaś alternatywa dla MLE, która osiąga wyższy AUC?” Jeśli prawdą jest, że istnieje inny model liniowy (model inny niż MLE), który osiąga wyższy AUC, to warto o tym wiedzieć.
Sycorax mówi: Przywróć Monikę
1
@Sycorax, co jeszcze zakładamy? :) Założenia są ważne, ponieważ jeśli znamy prawdziwy MZD z użytym linkiem i zmiennymi, MLE jest jednoznacznie najsilniejszą bezstronną statystyką.
Nutle

Odpowiedzi:

11

Nie jest tak, że .βMLE=βAUC

Aby to zilustrować, należy wziąć pod uwagę, że AUC można zapisać jako

P(y^1>y^0|y1=1,y0=0)

Innymi słowy, kolejność prognoz jest jedyną rzeczą, która wpływa na AUC . Nie dotyczy to funkcji prawdopodobieństwa. Załóżmy więc, że jako ćwiczenie mentalne mieliśmy pojedyncze predyktory, aw naszym danych nie widzimy idealnej separacji (tj. jest skończony). Teraz, jeśli weźmiemy po prostu wartość największego predyktora i zwiększymy ją o niewielką kwotę, zmienimy prawdopodobieństwo tego rozwiązania, ale nie zmieni to AUC, ponieważ kolejność powinna pozostać taka sama. Zatem, jeśli stary MLE zmaksymalizował AUC, nadal zmaksymalizuje AUC po zmianie predyktora, ale nie zmaksymalizuje już prawdopodobieństwa.βMLE

Tak więc przynajmniej nie jest tak, że nie jest unikalny; każda która zachowuje porządek szacunków, osiąga dokładnie taki sam AUC. Ogólnie biorąc, ponieważ AUC jest wrażliwe na różne aspekty danych, uważam, że powinniśmy być w stanie znaleźć przypadek, w którym nie maksymalizuje . W rzeczywistości zaryzykuję przypuszczenie, że dzieje się to z dużym prawdopodobieństwem.βAUCββMLEβAUC

EDYCJA (przenoszenie komentarza do odpowiedzi)

Następnym krokiem jest udowodnienie, że MLE niekoniecznie maksymalizuje AUC (co jeszcze nie zostało udowodnione). Można to zrobić, biorąc coś w rodzaju predyktorów 1, 2, 3, 4, 5, 6, (z ) z wynikami 0, 0, 0, 1, 1, 1, 0. Każda dodatnia wartość zmaksymalizuje AUC (niezależnie od wartości ), ale możemy wybrać wystarczająco duże, aby .xx>6βxxβMLE<0

Cliff AB
źródło
1
(+1) Ah! Oczywiście - ponieważ chodzi o porządkowanie, moglibyśmy dowolnie zmienić punkt przecięcia, który oczywiście musi zmienić wartość prawdopodobieństwa, ale porządkowanie musi być takie samo, ponieważ nie zmienił się żaden współczynnik cech, więc AUC pozostanie stałe.
Sycorax mówi Przywróć Monikę
+1. Czy przykład edycji działa z ? Jeśli potrzebujemy wziąć wystarczająco dużego aby działało to z dużym , to czy prawdopodobieństwo istnienia takich wartości szybko nie zbiegnie się do zera dla niektórych stałych logitów? x nnxn
Nutle
@ Nutle: cóż, zależy od tego, co masz na myśli o . Gdybyśmy wzięli kopii (predyktory + wyniki) mojego zestawu danych o zabawkach, to tak, wynik by się utrzymał. Jeśli jednak weźmiemy kopii tego zestawu predyktorów, a dane naprawdę pochodzą z modelu regresji logistycznej, prawie nigdy by się to nie wydarzyło (jak zauważyłeś). Zauważ jednak, że coś podobnego mogłoby się wydarzyć z dużym prawdopodobieństwem, gdyby relacja między predyktorami tak naprawdę nie była zgodna z modelem regresji logistycznej. n nnnn
Cliff AB
Tak, dzięki, mówiłem o rozmiarze. Tak więc, zakładając, że taki rozkład ciężki jest znany, czy przykład nadal byłby taki, gdyby oszacowanie MLE zostało dostosowane do rozkładu rzeczywistego? To, o co mi chodzi, to czy prawdopodobieństwo istnienia takiego dla dowolnej próbki nie zbliża się do 0, czy szacunek MLE nie powinien odpowiednio na to zareagować i nie zachowywać się tak, jak w przypadku wartości odstającej? Przepraszam, jeśli nie jestem tu do końca jasny z brzmieniemnxn
Nutle