Łączenie klasyfikatorów poprzez rzut monetą

15

Studiuję kurs uczenia maszynowego, a slajdy z wykładami zawierają informacje, które uważam za sprzeczne z zalecaną książką.

Problem jest następujący: istnieją trzy klasyfikatory:

  • klasyfikator A zapewniający lepszą wydajność w dolnym zakresie progów,
  • klasyfikator B zapewniający lepszą wydajność w wyższym zakresie progów,
  • klasyfikator C to, co otrzymujemy, przerzucając monetę p i wybierając jeden z dwóch klasyfikatorów.

Jaka będzie wydajność klasyfikatora C, widzianego na krzywej ROC?

Slajdy z wykładu stwierdzają, że wystarczy rzucić monetą, aby uzyskać magiczny „ wypukły kadłub ” krzywej ROC klasyfikatorów A i B.

Nie rozumiem tego punktu. Wystarczy rzucić monetą, jak możemy uzyskać informacje?

Slajd z wykładem

slajdy wykładowe

Co mówi książka

Z drugiej strony zalecana książka ( Data Mining ...) autorstwa Iana H. Witten, Eibe Frank i Marka A. Halla :

Aby to zobaczyć, wybierz konkretną wartość odcięcia prawdopodobieństwa dla metody A, która daje wartości prawdziwe i fałszywie dodatnie odpowiednio tA i fA, oraz inną wartość odcięcia dla metody B, która daje tB i fB. Jeśli użyjesz tych dwóch schematów losowo z prawdopodobieństwem p i q, gdzie p + q = 1, otrzymasz prawdziwe i fałszywie dodatnie wskaźniki p. tA + q. tB i p. fA + q. pełne wyżywienie. Jest to punkt leżący na linii prostej łączącej punkty (tA, fA) i (tB, fB), a zmieniając p i q, można wyznaczyć całą linię między tymi dwoma punktami.

W moim rozumieniu książka mówi, że aby uzyskać informacje i dotrzeć do wypukłego kadłuba, musimy zrobić coś bardziej zaawansowanego niż zwykłe rzucenie monetą p.

AFAIK, poprawny sposób (jak sugeruje książka) jest następujący:

  1. powinniśmy znaleźć optymalny próg Oa dla klasyfikatora A
  2. powinniśmy znaleźć optymalny próg Ob dla klasyfikatora B
  3. zdefiniuj C w następujący sposób:

    • Jeśli t <Oa, użyj klasyfikatora A z t
    • Jeśli t> Ob, użyj klasyfikatora B z t
    • Jeśli Oa <t <Ob, wybierz między klasyfikatorem A z Oa i B z Ob przez prawdopodobieństwo jako liniową kombinację tego, gdzie jesteśmy między Oa i Ob.

Czy to jest poprawne? Jeśli tak, istnieje kilka kluczowych różnic w porównaniu z sugestiami slajdów.

  1. Nie jest to zwykłe rzucanie monetą, ale bardziej zaawansowany algorytm, który wymaga ręcznie zdefiniowanych punktów i wyborów w zależności od regionu, w którym się znajdujemy.
  2. Nigdy nie używa klasyfikatorów A i B z wartościami progowymi między Oa i Ob.

Czy możesz mi wyjaśnić ten problem i jaki jest właściwy sposób na jego zrozumienie , jeśli moje rozumienie nie było prawidłowe?

Co by się stało, gdybyśmy po prostu przerzucili monetę p, jak sugerują slajdy? Wydaje mi się, że otrzymalibyśmy krzywą ROC między A i B, ale nigdy „lepszą” niż lepsza w danym punkcie.

O ile widzę, naprawdę nie rozumiem, jak slajdy mogą być poprawne. Obliczenia probabilistyczne po lewej stronie nie mają dla mnie sensu.

Aktualizacja: Znaleziono artykuł napisany przez oryginalnego autora, który wynalazł metodę wypukłego kadłuba: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

hyperknot
źródło
Z mojego przeczytania zarówno slajdu, który publikujesz, jak i fragmentu książki, wydaje się, że opisują dokładnie to samo, a slajdy nie są błędne.
kardynał
Zauważ, że zbudowanie symulacji nie jest zbyt trudne, aby przekonać się o fakcie podanym na slajdzie. Jedyną trudnością, jaką możesz mieć, jest zbudowanie dwóch krzywych ROC, które wyglądają mniej więcej tak, ale można to zrobić, powiedzmy, używając modelu mieszanki Gaussa do wygenerowania obserwacji i niektórych nieoptymalnych reguł decyzyjnych.
kardynał

Odpowiedzi:

12

(Edytowane)

Slajdy z wykładami są prawidłowe.

Metoda A ma „punkt optymalny”, który daje odpowiednio prawdziwe i fałszywie dodatnie wskaźniki (TPA, FPA na wykresie). Ten punkt odpowiadałby progowi, lub bardziej ogólnie [*] optymalnej granicy decyzji dla A. To samo dotyczy B. (Ale progi i granice nie są powiązane).

Zauważono, że klasyfikator A działa niezgodnie z preferencją „minimalizuj fałszywe pozytywy” (strategia konserwatywna) i klasyfikator B, gdy chcemy „zmaksymalizować prawdziwe pozytywy” (chętna strategia).

Odpowiedź na twoje pierwsze pytanie jest w zasadzie tak, z tym wyjątkiem, że prawdopodobieństwo monety jest (w pewnym sensie) arbitralne. Ostatecznym klasyfikatorem byłby:

xxp

(Poprawione: w rzeczywistości wykłady są całkowicie poprawne, w każdym przypadku możemy po prostu rzucić monetą. Zobacz schematy)

p

[*] Powinieneś być tutaj ogólny: jeśli myślisz w kategoriach jednego progu skalarnego, wszystko to nie ma sensu; jednowymiarowa funkcja z klasyfikatorem opartym na progu nie daje wystarczającej liczby stopni swobody, aby mieć różne klasyfikatory, takie jak A i B, które działają wzdłuż różnych krzywych, gdy wolne parametry (granica decyzyjna = próg) są różne. Innymi słowy: A i B nazywane są „metodami” lub „systemami”, a nie „klasyfikatorami”; ponieważ A jest całą rodziną klasyfikatorów sparametryzowanych przez jakiś parametr (skalar), który określa granicę decyzji, a nie tylko skalar]

Dodałem kilka diagramów, aby było bardziej przejrzyste:

wprowadź opis zdjęcia tutaj

ttttA=2ttB=4

W tym scenariuszu można zatem powiedzieć, że wypełniona pomarańczowa linia jest „optymalnym klasyfikatorem A” (w jej rodzinie), i to samo dla B. Jednak nie można stwierdzić, czy pomarańczowa linia jest lepsza niż niebieska linia: wykonuje się lepiej, gdy przypisujemy wysokie koszty fałszywym pozytywom, a drugie, gdy fałszywe negatywy są znacznie droższe.

wprowadź opis zdjęcia tutaj

Może się zdarzyć, że te dwa klasyfikatory są zbyt ekstremalne dla naszych potrzeb, chcielibyśmy, aby oba typy błędów miały podobną wagę. Wolelibyśmy zamiast używać klasyfikatora A (pomarańczowa kropka) lub B (niebieska kropka), aby osiągnąć wydajność, która znajduje się między nimi. Jak mówi kurs, ten wynik można osiągnąć, po prostu rzucając monetą i wybierając losowo jednego z klasyfikatorów.

Wystarczy rzucić monetą, jak możemy uzyskać informacje?

Nie zdobywamy informacji. Nasz nowy randomizowany klasyfikator nie jest po prostu „lepszy” niż A lub B, jego wydajność jest jakby średnią A i B, pod względem kosztów przypisanych do każdego rodzaju błędu. Może to być dla nas korzystne lub nie, w zależności od naszych kosztów.

AFAIK, poprawny sposób (jak sugeruje książka) jest następujący ... Czy to prawda?

p

leonbloy
źródło
@leonboy Uważam, że x jest progiem i dla niskich wartości x klasyfikatora A działa najlepiej. Dla wysokich wartości x klasyfikator B działa najlepiej. Mówiąc najlepiej, mam na myśli, że dla danego fałszywie dodatniego wskaźnika prawdziwa dodatnia wartość jest najwyższa. Jeśli wiemy tylko, że A działa najlepiej do jednego punktu, w którym przecinają się, i B dla wszystkich progów powyżej tego, to żaden algorytm, który przypisuje wagę mniejszą niż 1 do A w regionie między FPa i FPb, w którym A ma wyższy TP, nie może wykonać jak również A. Zatem taki algorytm C musi spaść poniżej A w tym regionie.
Michael R. Chernick
Podobnie w regionie między FPa i FPb, gdzie TP jest wyższy dla B, żaden algorytm z p większym niż 0 nie będzie działał lepiej niż B. Wzór na TPc jest poprawny, ale ustalona średnia ważona między TPb i TPa nie może być większa niż większa z TPa i TPb. Musi spaść między nimi. Ale schemat zawsze pokazuje TPc powyżej TPa i TPb w całym regionie od FPa i FPb. Widzisz coś, czego nam brakuje? Nie znalazłem tego w twojej odpowiedzi.
Michael R. Chernick
1
Dobra żarówka zgasła! X to wektor w twoim umyśle, a nie próg skalarny. Czy to naprawdę coś zmienia? FP aixs jest prawdopodobieństwem skalarnym. Moim punktem przecięcia jest punkt równości FP dla A i B. Może być wiele wektorów X, które do niego prowadzą. Mówię tylko, że w dowolnym punkcie wzdłuż osi FP między FPa i FPb. TPc = p TPa + (1-p) TPb. Linia na wykresie jest w płaszczyźnie TP vs FP. Jak ta linia mogła przechodzić przez punkty powyżej krzywych zarówno dla A, jak i B, gdy OP kwestionował (myślę właściwie)?
Michael R. Chernick
1
@Michael: Uważam, że A i B to odrębne metody, które dają różne decyzje graniczne. Każdy ma regulowany parametr (co w 1D jest progiem), parametry są niezależne i dają (dla każdego) rodzinę klasyfikatorów. Spróbuję wykreślić schemat, aby spróbować go wyjaśnić, poczekaj.
leonbloy
1
Dałem leonbloyowi głos za tym pięknym opisem. Ale podoba mi się ostatni komentarz kardynała, ponieważ ten argument jest dla mnie jasny i zgadza się z moim ostatnim myśleniem. @leobloy Jedyną rzeczą, której brakuje na diagramie, jest wykres punktów dla losowej reguły, która bije oba pojedyncze. Myślę, że możesz opisać nową regułę jako taką, która waży dwa błędy w różny sposób, ale nie jest to konieczne i myślę, że mniej mylące, jeśli pominiesz ten argument.
Michael R. Chernick
2

Zgadzam się z twoim rozumowaniem. Jeśli użyjesz klasyfikatora, rzucając monetą, aby wybrać jeden, gdy znajdziesz się między punktami A i B, twój punkt na krzywej zawsze będzie poniżej lepszego klasyfikatora i powyżej gorszego, a prawdopodobnie nie powyżej obu! Coś musi być nie tak z diagramem. W punkcie, w którym 2 krzywe ROC przecinają się, algorytm losowego wyboru będzie miał taką samą wydajność jak dwa algorytmy. Nie będzie powyżej tego, jak to przedstawia schemat.

Michael R. Chernick
źródło
1
Uważam, że slajd jest poprawny. Jeśli zastosujesz dwie różne procedury decyzyjne z dwoma różnymi progami, a następnie podejmiesz decyzję losową, otrzymasz wypukłą kombinację, która da punkt leżący pomiędzy nimi. Ten punkt może znajdować się powyżej obu ( ! ) Krzywych z tą samą częstością fałszywie dodatnich. Wynika to z tego, że próg stosowany dla każdej procedury jest w tym momencie inny.
kardynał
1
A zatem A i B w wypukłej kombinacji różnią się od A i B, które są wybierane indywidualnie z tą fałszywie dodatnią częstotliwością. Myślę, że schemat był mylący, ponieważ nie widziałem, aby A i B zostały wybrane z rodziny klasyfikatorów.
Michael R. Chernick
1
Ab
Uważam, że ta odpowiedź jest poprawna, uzupełniona komentarzem kardynała! Wydostanie się z obszaru skrzyżowania może się zdarzyć, ale nie jest to metoda. Znalazłem oryginalny artykuł od faceta, który wynalazł tę metodę, i wyjaśnia to bardzo dobrze! bmva.org/bmvc/1998/pdf/p082.pdf
hyperknot
@zsero: Wierzę, że nawet Michael przyzna, że ​​ta odpowiedź była oparta na zrozumieniu schematu w chwili, gdy odpowiedź została opublikowana, a jego interpretacja uległa zmianie od czasu pojawienia się komentarzy i innych odpowiedzi. Tak jak pokazano na rysunku, można osiągnąć poprzez randomizację dowolny punkt na dowolnej linii między punktem na pierwszej krzywej a punktem na drugiej, nawet jeśli wynikowa prawdziwie dodatnia stopa dominuje w pozostałych dwóch krzywych dla danego fałszywie dodatniego wskaźnika.
kardynał