Jak przeprowadzić rozbudowę danych i rozdzielić walidację pociągu?

Dokonuję klasyfikacji obrazów przy użyciu uczenia maszynowego.

Załóżmy, że mam pewne dane treningowe (obrazy) i podzielę dane na zestawy szkoleniowe i walidacyjne. Chcę też rozszerzyć dane (tworzyć nowe obrazy z oryginalnych) przez losowe obroty i wstrzykiwanie szumu. Augmentacja odbywa się offline.

Jaki jest właściwy sposób na powiększanie danych?

Najpierw podziel dane na zestawy szkoleniowe i walidacyjne, a następnie wykonaj rozbudowę danych zarówno na zestawach szkoleniowych, jak i walidacyjnych.
Najpierw podziel dane na zestawy szkoleniowe i walidacyjne, a następnie wykonaj powiększanie danych tylko na zestawie szkoleniowym.
Najpierw wykonaj rozbudowę danych, a następnie podziel dane na zestaw szkoleniowy i walidacyjny.

machine-learning classification cross-validation dataset data-augmentation yangjie
źródło

„Zwiększanie danych” ma więcej niż jedno znaczenie; pomogłoby to edytować pytanie, aby wyjaśnić, które jest twoje, lub po prostu dać przykład.

Scortchi - Przywróć Monikę

Jeśli planujesz zrobić TTA, augmentacja powinna być zastosowana do zestawu sprawdzania poprawności jak do zestawu testowego.

abby yorker,

Odpowiedzi:

Najpierw podziel dane na zestawy szkoleniowe i walidacyjne, a następnie wykonaj powiększanie danych w zestawie szkoleniowym.

Korzystasz z zestawu sprawdzania poprawności, aby oszacować sposób działania metody na danych ze świata rzeczywistego, dlatego powinien zawierać tylko dane ze świata rzeczywistego. Dodanie rozszerzonych danych nie poprawi dokładności walidacji. W najlepszym wypadku powie coś o tym, jak dobrze twoja metoda reaguje na powiększanie danych, aw najgorszym przypadku zniszczy wyniki walidacji i interpretowalność.

burk
źródło

Jestem dość ciekawy czegoś w twojej odpowiedzi. Jeśli moim kryterium zaprzestania szkolenia CNN jest zmniejszenie utraty sprawdzania poprawności, czy uważasz, że powiększenie danych w danych sprawdzania poprawności jest dobrym wyborem?

szalony

Nie, nadal uważam, że „zrujnowałoby to wyniki sprawdzania poprawności i interpretowalność”, ponieważ dokładność sprawdzania poprawności nie jest już dobrym wskaźnikiem dokładności dla nowych niewidocznych danych, jeśli zwiększysz dane sprawdzania poprawności.

burk

więc w ogóle nie musimy stosować rozszerzania danych przy sprawdzaniu poprawności i testowaniu danych?

Aadnan Farooq A

@AadnanFarooqA Nie. Powinieneś zwykle wykonywać te same operacje na danych testowych i walidacyjnych, jak zamierzasz robić na niewidzialnych danych, gdy używasz modelu do prognoz.

burk

@AadnanFarooqA Zwykle powinieneś po prostu zastosować rozszerzenie danych treningowych, po podziale.

burk

nigdy nie rób 3, ponieważ dostaniesz wyciek. Załóżmy na przykład, że powiększenie to przesunięcie o 1 piksel w lewo. jeśli rozróżnienie na podział nie jest świadome, możesz uzyskać bardzo podobne próbki danych zarówno w pociągu, jak i podczas walidacji.

eyaler
źródło

Rozszerzanie danych oznacza dodawanie zewnętrznych danych / informacji do istniejących danych, które są analizowane.

Tak więc, ponieważ całe rozszerzone dane byłyby wykorzystywane do uczenia maszynowego, wówczas bardziej odpowiedni byłby następujący proces:

Wykonaj powiększanie danych -> Podział danych

Dawny33
źródło

Dziękuję za odpowiedź. Czy to w porządku, że próbka i próbka powiększona, które są dość podobne do oryginalnej, są rozmieszczone w różnych zestawach?

yangjie,

Masz na myśli istniejące dane jako zestaw szkoleniowy, a dane rozszerzone jako zestaw walidacyjny? Następnie NIE

Dawny33,

Podział jest losowy, więc mam na myśli to, że jeśli dokonam rozszerzenia danych, a następnie podzielę dane, prawdopodobne jest, że niektóre istniejące dane (nie wszystkie) zostaną podzielone na zestaw szkoleniowy, podczas gdy rozszerzone dane trafią do zestawu sprawdzania poprawności.

yangjie,

Przez rozszerzenie rozumiesz dodawanie? Dane rozszerzone to dane, które obsługują bieżące dane we wszystkich punktach. Tak więc, jeśli podział jest losowy, to podział spowodowałby taką samą ilość rozszerzonych danych w obu zestawach, jak w przypadku istniejących danych

Dawny33,

Czy jest na to jakieś odniesienie do papieru?

Aadnan Farooq,