Od jakiegoś czasu pracuję w NLTK, używając Pythona. Problem, z którym się zmagam, polega na tym, że nie ma pomocy w szkoleniu NER w NLTK z moimi niestandardowymi danymi. Wykorzystali MaxEnt i wyszkolili go na korpusie ACE. Dużo szukałem w Internecie, ale nie mogłem znaleźć sposobu, który mógłby posłużyć do wyszkolenia NER NLTK.
Jeśli ktoś może dostarczyć mi link / artykuł / blog itp., Który może skierować mnie do formatu szkoleniowego zestawu danych wykorzystywanego do szkolenia NER NLTK, abym mógł przygotować moje zbiory danych w tym konkretnym formacie. A jeśli zostaniesz przekierowany do dowolnego linku / artykułu / bloga itp., Które mogą mi pomóc NER TRAIN NLTK w zakresie moich danych.
To pytanie jest najczęściej wyszukiwane i nie ma na nie odpowiedzi. Może być pomocny dla kogoś, kto w przyszłości będzie pracował z NER.
źródło
Odpowiedzi:
Szkolenie model, związane z wydobyciem informacyjnego , w ogóle, a rozpoznawanie jednostek nazwanych / rozdzielczość (NER) , w szczególności, jest szczegółowo opisana w rozdziale 7 w NLTK Book , dostępna pod adresem URL: http: //www.nltk .org / book / ch07.html .
Ponadto myślę, że użyteczna może być moja pokrewna odpowiedź na stronie Cross Validated . Zawiera wiele odniesień do odpowiednich źródeł na temat NER i pokrewnych tematów, a także do różnych powiązanych narzędzi programowych .
źródło
Czy ten artykuł jest wystarczająco dobry? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training
Istnieje wyjaśnienie, jak powinien wyglądać korpus.
Aby dane działały, Twoje dane muszą być w formacie IOB (tag słowny chunktag).
Eric NNP B-PERSON
jest VB O CEO
AT B-NP
NN I-NP
z IN O
Google NNP B-ORGANIZACJA
źródło
Uważam, że ten samouczek jest bardzo pomocny: Kompletny przewodnik do budowania własnego programu Named Entity Recognizer za pomocą Pythona Korzysta z korpusu banku znaczeń Groningen (GMB) do trenowania swojej części NER.
Następnie możesz sprawdzić ten samouczek od tej samej osoby: Szkolenie systemu NER przy użyciu dużego zestawu danych Tam, gdzie używa scikit, naucz się poprawiać wydajność swojego systemu.
Wreszcie kilka naprawdę przydatnych samouczków można znaleźć tutaj: samouczek NLTK Ten facet ma kanał na youtube z wieloma samouczkami na wiele tematów (ML, NLP, Python ...)
Mam nadzieję, że to pomoże.
źródło