Kategoryzacja podejść do radzenia sobie z klasami niezrównoważonymi

8

Jaki jest najlepszy sposób kategoryzacji podejść opracowanych w celu rozwiązania problemu klasy nierównowagi?

W tym artykule podzielono je na:

  1. Przetwarzanie wstępne: obejmuje oversampling, undersampling i metody hybrydowe,
  2. Uczenie wrażliwe na koszty: obejmuje metody bezpośrednie i meta-nauczanie, które to ostatnie dzieli się na progi i pobieranie próbek
  3. Techniki zestawów: obejmują zestawy wrażliwe na koszty i przetwarzanie danych w połączeniu z uczeniem się zestawów.

Druga klasyfikacja:

  1. Wstępne przetwarzanie danych: obejmuje zmianę dystrybucji i ważenie przestrzeni danych. Uczenie się w jednej klasie jest uważane za zmianę dystrybucji.
  2. Metody uczenia się specjalnego
  3. Prognozowanie Post-processing: obejmuje metodę progową i post-processing wrażliwy na koszty
  4. Metody hybrydowe:

Trzeci artykuł :

  1. Metody na poziomie danych
  2. Metody na poziomie algorytmu
  3. Metody hybrydowe

Ostatnia klasyfikacja uznaje również dostosowanie produkcji za podejście niezależne.

Z góry dziękuję.

ebrahimi
źródło
4
Bardzo krótka odpowiedź: wszystkie są najlepsze, a wszystkie najgorsze! Klasyfikacja i eksploracja danych są ogólnie bardzo wrażliwe na kontekst. W tej dziedzinie nie ma jednego rozwiązania pasującego do wszystkich rozwiązań. Nawiasem mówiąc, najlepsze podejście, w bardzo ogólnym ujęciu, jest zwykle kombinacją najlepszych decyzji na różnych poziomach, od ekstrakcji funkcji, do schematu oceny.
mok
@mok Dzięki. Czy możesz podać mi wagę klasy w klasyfikatorach sklearn, np. Regresja logistyczna jest klasyfikowana do jakiej kategorii?
ebrahimi
@ebrahimi, powinien spaść na poziom algorytmu, ponieważ tylko wagi są dostosowywane zgodnie z przekazanym słownikiem lub obliczane (wywnioskowane) zgodnie z wartościami y (klasa), a dane pozostają nietknięte.
Sanjay Krishna
@SanjayKrishna Dziękujemy bardzo. W przypadku pierwszej kategoryzacji obejmuje uczenie wrażliwe na koszty, prawda? Również w przypadku drugiej taksonomii zostałby zaklasyfikowany do trzeciej kategorii, tj. Post-processingu wrażliwego na koszty. czy to prawda? Druga odpowiedź na to: stackoverflow.com/questions/32492550/... jest również przydatna.
ebrahimi

Odpowiedzi:

5

Moim zdaniem wszystkie trzy kategoryzacje zgadzają się w wielu sprawach. Na przykład wszystkie trzy mają kategorię kroków wstępnego przetwarzania.

Zazwyczaj zgadzam się co do trzeciej kategoryzacji, ponieważ jest ona bardziej ogólna i obejmuje więcej rzeczy.

  • Danych poziomu kategoria obejmuje wszystkie etapy przetwarzania wstępnego do czynienia ze stopniem braku równowagi (na przykład powyżej / poniżej próbkowania).
  • Poziom algorytmu można uznać za obejmujący drugie kategorie pierwszych dwóch artykułów. Każda zmiana w algorytmie zajmującym się nierównowagą klas byłaby tutaj (np. Ważenie klas).
  • Wreszcie kategoria hybrydowa do połączenia tych dwóch.

Jedyne, czego brakuje w pierwszych dwóch artykułach, to etapy przetwarzania końcowego, które, szczerze mówiąc, nie są stosowane w praktyce tak często jak inne.

ItsMeMario
źródło