Usuń duplikaty z zestawu treningowego do klasyfikacji

9

Powiedzmy, że mam kilka wierszy dotyczących problemu z klasyfikacją:

X_{1}, . . . X_{N}, Y

$X_1, ... X_N, Y$

Gdzie są cechami / predyktorami, a to klasa, do której należy kombinacja cech wiersza. $X_1, ..., X_N$ $Y$

Wiele kombinacji cech i ich klas jest powtarzanych w zestawie danych, którego używam do dopasowania klasyfikatora. Zastanawiam się tylko, czy dopuszczalne jest usunięcie duplikatów (w zasadzie wykonuję polecenie group by X1 ... XN YSQL)? Dzięki.

PS:

Dotyczy to tylko zestawu danych o obecności binarnej, w którym priory klas są dość wypaczone

machine-learning classification data-mining logistic stratification cs0815
źródło

13

Nie, nie do przyjęcia. Powtórzenia stanowią ciężar dowodów.

Jeśli usuniesz swoje duplikaty, czterolistna koniczyna jest tak samo ważna jak zwykła, trzylistna koniczyna, ponieważ każda z nich pojawi się raz, podczas gdy w prawdziwym życiu istnieje czterolistna koniczyna na każde 10 000 regularnych koniczyny.

Nawet jeśli twoje priory są „dość wypaczone”, jak mówisz, celem zestawu treningowego jest zgromadzenie prawdziwych doświadczeń, których nie osiągniesz, jeśli stracisz informacje o częstotliwości.

Carlos Accioly
źródło

1

Zgadzam się z poprzednią odpowiedzią, ale oto moje zastrzeżenia. Wskazane jest usuwanie duplikatów podczas segregowania próbek w celu szkolenia i testowania dla określonych klasyfikatorów, takich jak drzewa decyzyjne. Powiedzmy, że 20% twoich danych należało do określonej klasy i $\frac{1}{4}^{th}$ z tych, które są poddane testom, wówczas algorytmy takie jak Drzewa decyzyjne utworzą bramy do tej klasy ze zduplikowanymi próbkami. Może to zapewnić wprowadzające w błąd wyniki w zestawie testowym, ponieważ zasadniczo istnieje bardzo konkretna brama do prawidłowego wyniku.

Po wdrożeniu tego klasyfikatora do zupełnie nowych danych może on zadziwiająco słabo działać, jeśli nie ma próbek podobnych do wyżej wspomnianych 20% próbek.

Argument : Można argumentować, że ta sytuacja wskazuje na wadliwy zestaw danych, ale myślę, że dotyczy to rzeczywistych aplikacji.

Usuwanie duplikatów dla sieci neuronowych, modeli bayesowskich itp. Jest niedopuszczalne.

Rakshit Kothari
źródło

Innym wykonalnym rozwiązaniem może być obniżenie wagi duplikatów na podstawie ich częstotliwości występowania.

Rakshit Kothari

Usuń duplikaty z zestawu treningowego do klasyfikacji

Odpowiedzi: