Przeprowadziłem 10-krotną weryfikację krzyżową różnych algorytmów klasyfikacji binarnej, z tym samym zestawem danych, i otrzymałem uśrednione wyniki Mikro- i Makro. Należy wspomnieć, że był to problem klasyfikacji wielu marek.
W moim przypadku prawdziwe negatywy i prawdziwe pozytywy są ważone jednakowo. Oznacza to, że prawidłowe przewidywanie prawdziwych negatywów jest równie ważne, jak prawidłowe przewidywanie prawdziwych pozytywów.
Miary uśrednione mikro są niższe niż miary uśrednione makro. Oto wyniki sieci neuronowej i maszyny wektorowej wsparcia:
Przeprowadziłem również test podziału procentowego dla tego samego zestawu danych z innym algorytmem. Wyniki były następujące:
Wolałbym porównać test podziału procentowego z wynikami uśrednionymi na poziomie makro, ale czy to uczciwe? Nie wierzę, że wyniki uśrednione na poziomie makro są tendencyjne, ponieważ prawdziwie pozytywne i prawdziwe negatywy są równo ważone, ale z drugiej strony zastanawiam się, czy to to samo, co porównywanie jabłek z pomarańczami?
AKTUALIZACJA
Na podstawie komentarzy pokażę, w jaki sposób obliczane są średnie mikro i makro.
Mam 144 etykiety (takie same jak cechy lub atrybuty), które chcę przewidzieć. Precyzja, przywołanie i pomiar F są obliczane dla każdej etykiety.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Biorąc pod uwagę binarną miarę oceny B (tp, tn, fp, fn), która jest obliczana na podstawie prawdziwie pozytywnych (tp), prawdziwych negatywnych (tn), fałszywie pozytywnych (fp) i fałszywych negatywnych (fn). Średnie makro i mikro dla określonej miary można obliczyć w następujący sposób:
Za pomocą tych wzorów możemy obliczyć średnie mikro i makro w następujący sposób:
Tak więc miary uśrednione mikro dodają wszystkie tp, fp i fn (dla każdej etykiety), po czym następuje nowa ocena binarna. Miary uśrednione w makrze dodają wszystkie miary (Precyzja, Przywołanie lub Miara F) i dzielą się z liczbą etykiet, co bardziej przypomina średnią.
Pytanie brzmi, którego użyć?
Odpowiedzi:
Jeśli uważasz, że wszystkie etykiety są mniej więcej jednakowej wielkości (mają mniej więcej taką samą liczbę wystąpień), użyj dowolnej.
Jeśli uważasz, że istnieją etykiety z większą liczbą instancji niż inne i jeśli chcesz skierować swoje dane w stronę najbardziej zaludnionych, użyj micromedia .
Jeśli uważasz, że istnieją etykiety z większą liczbą wystąpień niż inne i jeśli chcesz przesunąć swoje dane w kierunku najmniej zaludnionych (lub przynajmniej nie chcesz stronić w kierunku najbardziej zaludnionych), skorzystaj z macromedia .
Jeśli wynik mikromedii jest znacznie niższy niż wynik makromedii, oznacza to, że masz poważne błędne klasyfikacje w najbardziej zaludnionych etykietach, podczas gdy twoje mniejsze etykiety są prawdopodobnie poprawnie sklasyfikowane. Jeśli wynik dla makromedii jest znacznie niższy niż wynik dla micromedii, oznacza to, że twoje mniejsze etykiety są źle sklasyfikowane, podczas gdy większe są prawdopodobnie poprawnie sklasyfikowane.
Jeśli nie masz pewności, co robić, kontynuuj porównania zarówno na mikro, jak i na średnim poziomie :)
To dobry artykuł na ten temat.
źródło