W NLP istnieje koncepcja, Gazetteer
która może być bardzo przydatna do tworzenia adnotacji. O ile rozumiem:
Gazeter składa się z zestawu list zawierających nazwy podmiotów, takich jak miasta, organizacje, dni tygodnia itp. Listy te służą do wyszukiwania wystąpień tych nazw w tekście, np. Do zadania rozpoznawania nazwanych podmiotów.
Jest to więc w zasadzie wyszukiwanie. Czy to nie jest oszustwo? Jeśli używamy a Gazetteer
do wykrywania nazwanych bytów, to niewiele się Natural Language Processing
dzieje. Idealnie chciałbym wykryć nazwane byty za pomocą NLP
technik. W przeciwnym razie, jak to jest lepsze niż dobór wzorca wyrażeń regularnych?
nlp
named-entity-recognition
AbtPst
źródło
źródło
Odpowiedzi:
Gazetteer lub jakakolwiek inna opcja celowo ustalonego rozmiaru wydaje się bardzo popularnym podejściem w artykułach akademickich , gdy masz problem ze skończonym rozmiarem, na przykład NER w stałej korpusie, tagowanie POS lub cokolwiek innego. Nie uważam tego za oszustwo, chyba że jedyną funkcją, której będziesz używać, jest dopasowywanie Gazetteer.
Jednak podczas trenowania dowolnego modelu NLP, który opiera się na słowniku podczas treningu, możesz uzyskać rzeczywistą wydajność znacznie niższą niż wynikałoby to z początkowych testów, chyba że możesz dołączyć wszystkie interesujące obiekty do gazetera (i dlaczego to robisz potrzebujesz tego modelu?), ponieważ Twój wyszkolony model będzie w pewnym momencie polegał na tej funkcji, a w przypadku, gdy inne cechy będą zbyt słabe lub nie opisowe, nowe interesujące obiekty nie zostaną rozpoznane.
Jeśli używasz Gazetteer w swoich modelach, powinieneś upewnić się, że ta funkcja ma funkcję licznika, która pozwala samemu zachować równowagę, aby proste dopasowanie słownika nie było jedyną cechą klasy dodatniej (a co ważniejsze, gazetteer powinien pasują nie tylko pozytywne przykłady, ale także negatywne).
Załóżmy na przykład, że masz pełny zestaw nieskończonych odmian wszystkich nazwisk osób, co powoduje, że ogólna osoba NER nie ma znaczenia, ale teraz próbujesz zdecydować, czy obiekt wspomniany w tekście jest zdolny do śpiewania. Będziesz polegał na funkcjach włączenia do swojego Gazetera Person, co da ci wiele fałszywych wyników pozytywnych; następnie dodasz funkcję „ Jest przedmiotem czasownika śpiewać ”, a to prawdopodobnie dałoby fałszywe pozytywy z wszelkiego rodzaju przedmiotów, takich jak ptaki, twój brzuch, gdy jesteś głodny, i pijany facet, który myśliumie śpiewać (ale bądźmy szczerzy, nie może) - ale ta funkcja czasownika będzie się równoważyła z twoim dziennikiem, aby przypisać pozytywną klasę „Singera” osobom, a nie zwierzętom lub innym przedmiotom. Nie rozwiązuje to jednak sprawy pijanego wykonawcy.
źródło
Korzystanie z listy podmiotów ma kilka wad:
Możesz poradzić sobie z tymi wadami, postępując zgodnie z sugerowanym kierunkiem @emre i skorzystać z listy, aby nauczyć się klasyfikatora.
Na przykład możesz użyć żetonów w pobliżu bytu i nauczyć się zasady, że „Mieszkam w X” jest wskaźnikiem miejsca, a „Rozmawiałem z X” jest wskaźnikiem osoby. Możesz zagrać w tę grę przez kilka rund, zwiększając swoją listę według trafień reguł i korzystając z nowej listy, aby dowiedzieć się więcej.
Nie należy zapominać, że podczas tej nauki wprowadzasz do danych szumy, więc w większości przypadków nauka powinna być prosta.
źródło