Kiedy powinniśmy uznać zestaw danych za niezrównoważony?

10

Mam do czynienia z sytuacją, w której liczba pozytywnych i negatywnych przykładów w zbiorze danych jest niezrównoważona.

Moje pytanie brzmi: czy istnieją jakieś praktyczne zasady, które mówią nam, kiedy powinniśmy podpróbować dużą kategorię, aby wymusić pewien rodzaj równoważenia w zbiorze danych.

Przykłady:

  • Jeśli liczba pozytywnych przykładów wynosi 1000, a liczba negatywnych przykładów wynosi 10 000, czy powinienem przejść na szkolenie mojego klasyfikatora w pełnym zbiorze danych, czy powinienem podpróbować przykłady negatywne?
  • To samo pytanie dla 1000 pozytywnych przykładów i 100 000 negatywnych.
  • To samo pytanie dla 10000 pozytywnych i 1000 negatywnych.
  • itp...
Rami
źródło
Nie ma nic złego w zestawach danych, które nie dzielą się idealnie w środku. Jakiej techniki modelowania używasz? Jeśli technika opiera się na „zrównoważonych” danych, być może używasz niewłaściwej techniki.
D3C34C34D
1
Nina Zumel analizuje skutki balansowanie na różnych estymatorów tutaj , może to pomóc innym także. Patrzy na losowy las, SVM i oszacowanie logitów.
CFM,

Odpowiedzi:

9

Myślę, że podpróbkowanie (próbkowanie w dół) jest popularną metodą kontrolowania nierównowagi klas na poziomie podstawowym, co oznacza, że ​​naprawia źródło problemu. Tak więc dla wszystkich twoich przykładów losowe wybranie 1000 z większości klas za każdym razem zadziałałoby. Możesz nawet pobawić się tworzeniem 10 modeli (10 krotności 1.000 większości w porównaniu z 1.000 mniejszością), dzięki czemu będziesz korzystać z całego zestawu danych. Możesz użyć tej metody, ale znowu wyrzucasz 9 000 próbek, chyba że wypróbujesz kilka metod łączenia. Łatwa naprawa, ale trudne do uzyskania optymalnego modelu na podstawie danych.

Stopień, w jakim musisz kontrolować nierównowagę klas, zależy w dużej mierze od twojego celu. Jeśli zależy ci na czystej klasyfikacji, wówczas nierównowaga wpłynie na 50% prawdopodobieństwo odcięcia dla większości technik, więc rozważę zmniejszenie próbkowania. Jeśli zależy ci tylko na kolejności klasyfikacji (chcesz, aby dodatnie wartości były ogólnie wyższe niż ujemne) i zastosujesz miarę, taką jak AUC, nierównowaga klasowa będzie jedynie wpływać na twoje prawdopodobieństwo, ale względna kolejność powinna być przyzwoicie stabilna dla większości technik.

Regresja logistyczna jest korzystna dla nierównowagi klas, ponieważ dopóki masz> 500 klasy mniejszości, oszacowania parametrów będą wystarczająco dokładne, a jedyny wpływ będzie na przechwycenie, które można skorygować, jeśli jest to coś, co możesz chcieć. Regresja logistyczna modeluje prawdopodobieństwa, a nie tylko klasy, dzięki czemu można wykonać więcej ręcznych dostosowań w zależności od potrzeb.

Wiele technik klasyfikacji ma również argument wagi klasowej, który pomoże ci bardziej skoncentrować się na klasie mniejszości. Będzie karać za błędną klasyfikację prawdziwej klasy mniejszości, więc twoja ogólna akumulacja nieco ucierpi, ale zaczniesz widzieć więcej klas mniejszości, które są poprawnie sklasyfikowane.

TBSRounder
źródło
Czy możesz rozwinąć wytyczne dotyczące „tak długo, jak masz> 500 klasy mniejszości”? Skąd masz tę liczbę 500? Czy to zależy od twojego doświadczenia? Oczekiwałem procentu od twojej odpowiedzi.
Jas
2

Niezbilansowanie nie jest formalnie zdefiniowane, ale stosunek 1 do 10 jest zwykle niezrównoważony na tyle, aby skorzystać z techniki równoważenia.

Istnieją dwa rodzaje nierównowagi, względna i bezwzględna. Względne proporcje między klasami większości i mniejszości są niezrównoważone. Absolutnie masz również niewielką liczbę próbek mniejszości. Im wyższy współczynnik nierównowagi, tym większe prawdopodobieństwo, że osiągniesz absolutną nierównowagę.

Należy pamiętać, że bezpośrednie podpróbkowanie nie jest optymalnym sposobem radzenia sobie z niezrównoważonym zestawem danych. Jest tak, ponieważ powinieneś zbudować klasyfikator, który będzie działał dobrze na twoim oryginalnym zestawie danych. Aby zapoznać się z techniką budowania klasyfikatorów na niezrównoważonych zestawach danych, zobacz tutaj . Aby ocenić klasyfikator, patrz tutaj .

DaL
źródło
2

Problem nierównowagi danych? Teoretycznie chodzi tylko o liczby. Nawet jeśli różnica wynosi 1 próbkę, oznacza to brak równowagi danych

W praktyce stwierdzenie, że jest to problem braku równowagi danych, kontrolowane jest przez trzy rzeczy: 1. Liczbę i rozkład próbek, które posiadasz 2. Różnice w obrębie tej samej klasy 3. Podobieństwa między różnymi klasami

Ostatnie dwa punkty zmieniają sposób, w jaki postrzegamy nasz problem.

Aby to wyjaśnić, podam przykład: Klasa A = 100 próbek Klasa B = 10 000

Jeśli różnica w klasie B jest bardzo niska, wówczas próbkowanie w dół będzie wystarczające, nie będzie problemu z nierównowagą danych

Jeśli zmienność jest bardzo wysoka w klasie b, wówczas próbkowanie w dół może prowadzić do utraty informacji, a stosowanie próbkowania w dół jest niebezpieczne

Kolejna kwestia: posiadanie dużej liczby próbek (głównie dla klasy mniejszościowej) złagodzi problem braku równowagi danych i ułatwi radzenie sobie z problemem

Np. 10: 100. vs. 1000: 10 000

Baszar Haddad
źródło