Intuicyjne rozumowanie zostało wyjaśnione w blogu:
Jeśli naszym celem jest przewidywanie, spowoduje to wyraźne uprzedzenie. Co gorsza, będzie to trwałe odchylenie w tym sensie, że nie będziemy mieli spójnych szacunków w miarę wzrostu wielkości próby.
Prawdopodobnie problem (sztucznie) zrównoważonych danych jest gorszy niż przypadek niezrównoważony.
Zrównoważone dane nadają się do klasyfikacji, ale oczywiście tracisz informacje o częstotliwościach wyglądu, co ma wpływ na same pomiary dokładności, a także na wydajność produkcji.
Załóżmy, że rozpoznajesz ręcznie pisane litery z alfabetu angielskiego (26 liter). Nadmierne zrównoważenie wyglądu każdej litery spowoduje, że każda litera zostanie sklasyfikowana (poprawnie lub nie) w przybliżeniu 1/26, więc klasyfikator zapomni o rzeczywistym rozmieszczeniu liter w oryginalnej próbce. I jest ok, gdy klasyfikator jest w stanie uogólnić i rozpoznać każdą literę z dużą dokładnością .
Ale jeśli dokładność i, co najważniejsze, uogólnienie nie są „tak wysokie” (nie mogę podać ci definicji - możesz to potraktować jako „najgorszy przypadek”) - błędnie sklasyfikowane punkty najprawdopodobniej zostaną równo rozdzielone między wszystkie litery , coś jak:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
W przeciwieństwie do bez równoważenia (przy założeniu, że „A” i „C” mają znacznie większe prawdopodobieństwo pojawienia się w tekście)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Tak częste przypadki będą miały mniej błędnych klasyfikacji. To, czy jest dobre, czy nie, zależy od twojego zadania. W przypadku naturalnego rozpoznawania tekstu można argumentować, że litery o wyższych częstotliwościach są bardziej opłacalne, ponieważ zachowałyby semantykę oryginalnego tekstu, przybliżając zadanie rozpoznawania do przewidywania (gdzie semantyka reprezentuje tendencje ). Ale jeśli próbujesz rozpoznać coś takiego jak zrzut ekranu klucza ECDSA (więcej entropii -> mniej przewidywania) - utrzymanie niezrównoważenia danych nie pomogłoby. Więc znowu to zależy.
Najważniejsze rozróżnienie polega na tym, że samo oszacowanie dokładności staje się tendencyjne (jak widać na przykładzie zrównoważonego alfabetu), więc nie wiesz, w jaki sposób zachowanie modelu wpływa na najrzadsze lub najczęstsze punkty.
PS Zawsze możesz najpierw śledzić wyniki klasyfikacji niezrównoważonej za pomocą wskaźników Precyzja / Przywołanie i zdecydować, czy chcesz dodać równoważenie, czy nie.
EDYCJA : Istnieje dodatkowe zamieszanie, które polega na teorii szacunków dokładnie na różnicy między średnią próby a średnią populacji. Na przykład możesz znać (prawdopodobnie) faktyczny rozkład liter angielskich w alfabecie , ale twoja próbka (zestaw szkoleniowy) nie jest wystarczająco duża, aby oszacować ją poprawnie (z ). Aby więc skompensować , czasami zaleca się ponowne zrównoważenie klas zgodnie z samą populacją lub parametrami znanymi z większej próbyp ( xja| θ)p ( xja| θ^)θ i - θ jaθ^ja- θja(a zatem lepszy estymator). Jednak w praktyce nie ma gwarancji, że „większa próbka” jest identycznie dystrybuowana ze względu na ryzyko uzyskania stronniczych danych na każdym etapie (powiedzmy, że angielskie litery zebrane z literatury technicznej vs. fikcja vs. cała biblioteka), więc równoważenie może nadal być szkodliwe.
Ta odpowiedź powinna również wyjaśnić kryteria stosowalności bilansowania:
Problem nierównowagi klasowej jest spowodowany brakiem wystarczającej liczby wzorców należących do klasy mniejszościowej, a nie stosunkiem samych pozytywnych i negatywnych wzorców. Zasadniczo, jeśli masz wystarczającą ilość danych, nie pojawia się „problem braku równowagi klas”
Podsumowując, sztuczne równoważenie rzadko jest przydatne, jeśli zestaw treningowy jest wystarczająco duży. Brak danych statystycznych z większej identycznie rozmieszczonej próbki również sugeruje, że nie ma potrzeby sztucznego równoważenia (szczególnie do prognozowania), w przeciwnym razie jakość estymatora jest tak dobra, jak „prawdopodobieństwo spotkania dinozaura”:
Jakie jest prawdopodobieństwo spotkania dinozaura na ulicy?
1/2 albo spotkasz dinozaura albo nie spotkasz dinozaura
Zgodnie z komentarzem @ kjetil-b-halvorsen, szybkie przyjęcie uczenia maszynowego pomieszało naukowców w kwestii przewidywania z klasyfikacją. Jak opisałem tutaj bardziej szczegółowo , klasyfikacja jest właściwa tylko w nielicznych przypadkach. Gdy wynik jest rzadki (lub zbyt powszechny), prawdopodobieństwa są wszystkim, ponieważ w takim przypadku można tylko rozsądnie mówić o tendencjach , a nie o przewidywaniu poszczególnych zdarzeń.
W statystykach dowiedzieliśmy się już dawno, że każda metoda, która wymaga wykluczenia niektórych danych, jest wysoce podejrzana. Cel równoważenia wyników jest więc niewłaściwy. Przewidywanie tendencji (prawdopodobieństw) nie wymaga tego. Po oszacowaniu prawdopodobieństwa możesz podjąć optymalną decyzję, stosując funkcję użyteczności / kosztu / straty do przewidywanego ryzyka.
źródło
Zależy od tego, co chcesz osiągnąć z klasyfikacji?
Powiedzmy, że to rak v / s non rak, to wykrycie raka jest niezbędne. Ponieważ jednak nienowotworowy będzie stanowił większość twoich danych, klasyfikator może zasadniczo wysłać wszystkie przypadki do klasy niebędącej rakiem i uzyskać bardzo wysoką dokładność. Ale nie możemy sobie na to pozwolić, więc zasadniczo zmniejszamy liczbę przypadków nienowotworowych, zasadniczo przesuwając granicę decyzji z regionu raka do regionu nienowotworowego.
Nawet w przypadkach użycia, w których dokładność jest naszym jedynym celem, równoważenie może być niezbędne, jeśli oczekuje się, że bilans czasu testu będzie inny niż czas pociągu.
Na przykład powiedz, że chcesz sklasyfikować mango i pomarańcze, masz zestaw danych szkoleniowych z 900 mango i 30 pomarańczy, ale spodziewasz się, że wdrożysz go na rynku z równymi mango i pomarańczami, a najlepiej, jeśli powinieneś próbować w oczekiwanym stosunku próbkowania, aby zmaksymalizować precyzja.
źródło
Gdy Twoje dane są zrównoważone, możesz sprawdzić dokładność pomiaru. Ale gdy taka sytuacja nie jest zrównoważona, twoja dokładność nie jest spójna dla różnych iteracji. Musisz skoncentrować więcej wskaźników, takich jak Precyzja (PPR), Przywołanie (czułość). Te dwa wskaźniki powinny być zrównoważone podczas porównywania. Powinieneś także sprawdzić wynik F1, który jest harmoniczną średnią dokładności i przywołania. Dotyczy to wszystkich algorytmów uczenia maszynowego
źródło