Kalibracja klasyfikatora podwyższonego klasy

19

Przeczytałem artykuł Alexandru Niculescu-Mizila i Richa Caruany „ Uzyskiwanie skalibrowanych prawdopodobieństw od wzmocnienia ” i dyskusję w tym wątku. Jednak nadal mam problemy ze zrozumieniem i wdrożeniem logistyki lub skalowania Platta, aby skalibrować moc wyjściową mojego wieloklasowego klasyfikatora podwyższającego (łagodne przyspieszanie z kikutami decyzyjnymi).

Jestem nieco zaznajomiony z uogólnionymi modelami liniowymi i myślę, że rozumiem, w jaki sposób logistyka i metody kalibracji Platta działają w przypadku binarnym, ale nie jestem pewien, czy wiem, jak rozszerzyć metodę opisaną w artykule na przypadek wielu klas.

Klasyfikator, którego używam, generuje następujące dane:

  • = liczba głosów oddanych przez klasyfikatora dla klasy j dla próbki i, która jest klasyfikowanafijji
  • = Szacowana klasayi

W tym momencie mam następujące pytania:

P1: Czy muszę używać logiki wielomianowej, aby oszacować prawdopodobieństwo? lub czy nadal mogę to zrobić za pomocą regresji logistycznej (np. w trybie 1-vs-all )?

P2: Jak powinienem zdefiniować pośrednie zmienne docelowe (np. Jak w skalowaniu Platta) dla przypadku wielu klas?

P3: Rozumiem, że może to być wiele pytań, ale czy ktoś byłby skłonny naszkicować pseudo-kod tego problemu? (na bardziej praktycznym poziomie interesuje mnie rozwiązanie w Matlabie).

Amelio Vazquez-Reina
źródło
1
świetne pytanie. Zastanawiałem się także, jak skonstruować kalibrację, nawet jeśli używasz schematu 1 w porównaniu do reszty. Jeśli tworzysz k modeli przy użyciu 1 w porównaniu z resztą (a istnieje k klas), czy musisz / powinnaś je w jakiś sposób znormalizować, aby sumowały się do 1 (np. Dzielą każde skalibrowane prawdopodobieństwo przez sumę wszystkich k)?
B_Miner 28.01.11

Odpowiedzi:

9

Jest to również temat, który mnie interesuje w praktyce, dlatego przeprowadziłem kilka badań. Oto dwa artykuły autora, które są często wymieniane jako odniesienie w tych sprawach.

  1. Przekształcanie wyników klasyfikatora w dokładne szacunki prawdopodobieństwa wieloklasowego
  2. Zmniejszenie wieloklasowej do binarnej poprzez sprzężenie oszacowań prawdopodobieństwa

Istotą zalecanej tutaj techniki jest zredukowanie problemu wieloklasowego do binarnego (np. Jeden kontra reszta, AKA jeden kontra wszystkie), użycie techniki takiej jak Platt (najlepiej przy użyciu zestawu testów) do skalibrowania wyników binarnych / prawdopodobieństw i następnie połącz je za pomocą techniki omówionej w artykułach (jedna jest rozszerzeniem procesu „sprzęgania” Hastie i in.). W pierwszym łączu najlepsze wyniki uzyskano po prostu normalizując binarne prawdopodobieństwa, które sumują się do 1.

Chciałbym usłyszeć inne rady i jeśli którykolwiek z tych tecnhiqes został wprowadzony w R.

B_Miner
źródło
Linki wymienione w odpowiedzi są nieaktualne. Najnowsze linki to: citeseerx.ist.psu.edu/viewdoc/… citeseerx.ist.psu.edu/viewdoc/…
Chandra
Odsyłacz do tutaj stats.stackexchange.com/questions/362460/…
TMrtSmith
Przywołując tę ​​odpowiedź. Przez pewien czas mnie to zaskoczyło, ale artykuł Zadrożnego i Elkana okazał się przydatny.
songololo