jakie maszyny / techniki głębokiego uczenia / techniki nlp są używane do klasyfikowania danych słów jako nazwa, numer telefonu komórkowego, adres, adres e-mail, stan, okręg, miasto itp.

9

Próbuję wygenerować inteligentny model, który może skanować zestaw słów lub ciągów i klasyfikować je jako nazwy, numery telefonów komórkowych, adresy, miasta, stany, kraje i inne podmioty korzystające z uczenia maszynowego lub głębokiego uczenia się.

Szukałem podejść, ale niestety nie znalazłem żadnego podejścia. Próbowałem z osadzeniem worka słów model i rękawiczki, aby przewidzieć, czy łańcuch to nazwa, miasto itp.

Ale nie udało mi się z modelem worków słów i GloVe istnieje wiele nazw, które nie zostały uwzględnione w przykładzie osadzania: - Lauren jest obecna w Glove, a laurena nie jest

Znalazłem ten post tutaj , który miał rozsądną odpowiedź, ale nie mogłem podejść do rozwiązania tego problemu poza faktem, że NLP i SVM zostały użyte do jego rozwiązania.

Wszelkie sugestie są mile widziane

Dzięki i pozdrawiam, Sai Charan Adurthi.

Sai Charan Adurthi
źródło
4
Nie jest to odpowiedź, ale nazywa się to rozpoznawaniem nazwanego podmiotu. Wyszukiwanie za pomocą tych terminów może okazać się pomocne.
kbrose
Dzięki @kbrose przejrzy techniki rozpoznawania nazwanego podmiotu.
Sai Charan Adurthi

Odpowiedzi:

1

Możesz zastosować gram znaków - Intuicyjnie może istnieć ogromna różnica w zestawie znaków między numerem telefonu a adresem e-mail. a następnie przekaż wektor gramów znakowych do SVM, aby dokonać prognozy. Możesz to zaimplementować za pomocą sklearn za pomocą poniższych ekstraktorów funkcji.

  1. TfIdfVectorizer (analizator = „znak”)

  2. CountVectorizer (analizator = „znak”)

Sprawdź poprawność zakresu ngram i zmiennych luzu SVM, aby dostroić model.

karthikbharadwaj
źródło
Dzięki! @karthikbharadwaj. Obecnie pracuję przy użyciu R, zajrzę do sklearn i zobaczę, czy to działa ..
Sai Charan Adurthi
@Sai Charan Adurthi - Prosimy głosować, jeśli uważasz, że było to pomocne, i przyjmować odpowiedzi, jeśli uważasz, że były pomocne.
karthikbharadwaj
jasne, na pewno to zrobię, gdy sprawdzę to w Pythonie ...
Sai Charan Adurthi
0

Zastosowanie do słów wspólnych etykiet jakościowych jest zwykle nazywane rozpoznawaniem nazwanych podmiotów (NER) .

NER można wykonać za pomocą reguł statycznych (np. Wyrażeń regularnych) lub wyuczonych reguł (np. Drzew decyzyjnych). Reguły te są często kruche i nie generalizują. Warunkowe pola losowe (CRF) są często lepszym rozwiązaniem, ponieważ są w stanie modelować ukryte stany języków. Obecna najnowocześniejsza wydajność w NER odbywa się za pomocą kombinacji modeli Deep Learning .

Stanford Nazwany Podmiot Rozpoznawanie i przestronne są pakiety do wykonania Nerem.

Brian Spiering
źródło
Dziękuję Dr. Brain! .. ale chcę zbudować model, który bierze tylko jedno słowo lub słowo ciągów i przewidzieć, czy jest to nazwa, adres itp. Próbowałem NER przy użyciu openNLP firmy Apache w R. Nie do końca mi się udało w tym. Potrzebny paragraf słów bto wykorzystywał gramatykę i części mowy. Chcę mieć model, który może nawet zrozumieć takie rzeczy, jak kody pocztowe, kody pocztowe i kody stanów. Idę tutaj z właściwym podejściem Dr mózgu?
Sai Charan Adurthi
Nie powinieneś myśleć o posiadaniu jednego ogólnego modelu. Powinieneś zbudować model dla każdego rodzaju elementu. Na przykład większość kodów pocztowych można znaleźć z wyrażeniem regularnym. Króluje też kontekst, model z jednym słowem wykona słabą robotę przewidując NER. Lepiej mieć duże sekcje tekstu.
Brian Spiering,
Cześć, @Dr. Mózg, wypróbowałem z pakietem text2vec dla R, użyłem osadzania Glove Word, aby sprawdzić, jak podobne są słowa. Np .: Mam dane pociągu o wartości 1000 wierszy z kategoriami takimi jak nazwa, miasto, stan, kraj itd., Dane testowe o różnych wartościach. Użyłem text2vec do skonstruowania TCM dla obu pociągów, wartości danych testowych, następnie dopasowałem model rękawicy do tych TCM i sprawdziłem podobieństwo każdego słowa w danych testowych do trenowania danych według kategorii za pomocą funkcji podobieństwa cosinus. Ale nie mogłem osiągnąć dobrej dokładności i jej zmiennej nawet za każdym razem, gdy generuję modele rękawic i sprawdzam podobieństwo.
Sai Charan Adurthi
Dzięki, Dr.Brian działa, jeśli użyję zdań, aby uzyskać kontekst i użyć NER. Ale chcę to zrobić tylko przy użyciu słów i sprawdzić, czy jakiś model może nauczyć się wzorców na tych słowach.
Sai Charan Adurthi
Cześć Brain, użyłem Apache Open NLP, aby użyć wstępnie wyszkolonych modeli NER. I tak, działa również na słowa.
Sai Charan Adurthi