Mam listę słów należących do różnych samookreślonych kategorii. Każda kategoria ma swój własny wzór (na przykład jedna ma stałą długość ze znakami specjalnymi, inna istnieje ze znaków, które występują tylko w tej kategorii „słowa”, ...).
Na przykład:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Poszukuję techniki uczenia maszynowego, aby samodzielnie nauczyć się tych wzorców na podstawie danych szkoleniowych. Próbowałem już samodzielnie zdefiniować niektóre zmienne predykcyjne (na przykład długość słowa, liczbę znaków specjalnych, ...), a następnie użyłem sieci neuronowych do nauki i przewidywania kategorii. Ale tego nie chcę. Chcę, aby technika nauczyła się wzoru dla każdej kategorii samodzielnie - a nawet nauczyła się wzorców, o których nigdy nie myślałam.
Podaję więc dane uczenia algorytmu (składające się z przykładów kategorii słów) i chcę, aby nauczył się wzorców dla każdej kategorii, aby przewidzieć później kategorię na podstawie podobnych lub równych słów.
Czy istnieje najnowocześniejszy sposób na zrobienie tego?
Dzięki za pomoc
Odpowiedzi:
Czy problem może zostać ponownie sformułowany jako chęć odkrycia wyrażeń regularnych, które będą pasować do ciągów w każdej kategorii? Jest to problem „generowania wyrażeń regularnych”, podzbiór problemu indukcji gramatyki (patrz także strona internetowa Alexandra Clarka ).
Problem wyrażeń regularnych jest łatwiejszy. Mogę wskazać ci kod frak i RegexGenerator . RegexGenerator Internecie ++ ma odniesień do swoich prac naukowych dotyczących problemu.
źródło
Możesz wypróbować powtarzające się sieci neuronowe, w których dane wejściowe to ciąg liter w słowie, a dane wyjściowe to kategoria. Spełnia to twoje wymagania, dlatego nie przekazujesz kodu żadnych funkcji.
Jednak aby ta metoda rzeczywiście działała, będziesz potrzebować dość dużego zestawu danych treningowych.
Więcej informacji można znaleźć w rozdziale Supervised Sequence Labeling with Recurrent Neural Networks autorstwa Alexa Gravesa, rozdział 2.
To jest link do przedruku
źródło