Inżynieria cech jest często ważnym elementem uczenia maszynowego (została wykorzystana bardzo często, aby wygrać Puchar KDD w 2010 r .). Uważam jednak, że większość technik inżynierii cech również
- zniszczyć jakiekolwiek intuicyjne znaczenie podstawowych funkcji lub
- są bardzo specyficzne dla konkretnej domeny lub nawet określonego rodzaju funkcji.
Klasycznym przykładem tego pierwszego byłaby analiza głównych składników. Wydaje mi się, że wszelka wiedza eksperta w tej dziedzinie na temat cech zostanie zniszczona przez konwersję tych cech na główne elementy.
Porównaj to za pomocą prostej techniki konwertowania daty na funkcje dla „dnia miesiąca” i „dnia tygodnia”. Podstawowe znaczenie jest nadal zachowane w nowych funkcjach, ale oczywiście ta konkretna technika ma zastosowanie tylko do dat, a nie do dowolnych funkcji.
Czy istnieje jakiś standardowy zestaw technik inżynierii obiektów, które nie niszczą znaczenia podstawowych funkcji, a jednocześnie mają zastosowanie do dowolnych domen (lub co najmniej szerokiej gamy domen)?
źródło
Odpowiedzi:
Zdaję sobie sprawę z jednej metody rozkładu (ale może jest więcej ...), która może być przydatna w scenariuszach takich jak ty. To jest jak 2D-PCA - metoda rozkładu wysokiego rzędu, w której rozkład (tj. Czynniki) ma pewne znaczenie. Możesz zobaczyć przykłady i przeczytać o tym tutaj i tutaj i spróbować tutaj
źródło
Ostatnie metody głębokiego uczenia się z użyciem ograniczonej maszyny Boltzmanna wykazały dobre funkcje w kilku typach danych (audio, obrazy, tekst).
Ponieważ metody te tworzą model generatywny, często można generować naprawdę ładne próbki z modelu.
Sprawdź publikacje Hintona. http://www.cs.toronto.edu/~hinton/
Metody te nie są całkowicie ogólne (uruchamiają ten sam kod na wszystkich danych), ale model podstawowy jest zwykle podobny.
źródło