W wielu aplikacjach uczenia maszynowego tak zwane metody powiększania danych pozwoliły na zbudowanie lepszych modeli. Załóżmy na przykład zestaw szkoleniowy zawierający zdjęć kotów i psów. Obracając, odbijając, dostosowując kontrast itp. Można wygenerować dodatkowe obrazy z oryginalnych.
W przypadku obrazów powiększanie danych jest stosunkowo proste. Załóżmy jednak (na przykład), że jeden zestaw szkoleniowy zawiera próbek i kilkaset zmiennych ciągłych, które reprezentują różne rzeczy. Powiększanie danych nie wydaje się już tak intuicyjne. Co można zrobić w takim przypadku?
Odpowiedzi:
Rozumiem, że to pytanie dotyczy zarówno konstrukcji obiektów, jak i radzenia sobie z bogactwem funkcji, które już masz + zbuduje, w stosunku do twoich obserwacji (
N << P
).Konstrukcja funkcji
Rozwijając komentarz @ yasin.yazici, możliwe są następujące sposoby rozszerzenia danych:
Jestem pewien, że brakuje wielu innych.
Wybór funkcji / redukcja wymiarów
Możesz zmniejszyć wymiarowość za pomocą technik takich jak PCA (choć być może nie po rozszerzeniu danych o zmienne PCA). Alternatywnie możesz użyć algorytmów, które dokonują wyboru funkcji, takich jak lasso, losowy las itp.
źródło
Napotkałem podobny problem, w którym chciałem powiększyć nieznakowane dane liczbowe. Rozszerzyłem dane w następujący sposób: (Powiedzmy, że mam zestaw danych o rozmiarze 100 * 10).
źródło