Czy istnieje algorytmiczne podejście do identyfikacji, że daty podane w akapicie są powiązane z określonymi zdarzeniami (frazami) w akapicie?
Przykład, rozważ następujący akapit:
W czerwcu 1970 roku wielki przywódca złożył przysięgę. Ale dopiero po maju 1972 r., Po śmierci ministra stanu, przejął stery kraju. Chociaż cieszył się popularnym poparciem do połowy 1980 roku, jego wpływy zaczęły spadać później.
Czy istnieje algorytm (deterministyczny lub stochastyczny) #, który może wygenerować 2-krotki (data, zdarzenie), w przypadku których zdarzenie , według akapitu, miało miejsce w dniu ? W powyższym przypadku:
- (Czerwiec 1970, wielki przywódca złożył przysięgę)
(Maj 1972 r. Przejął stery)
Lub jeszcze lepiej
- (Maj 1972 wielki przywódca przejął stery)
- (1980, spadek wpływów)
# Późniejsze dodanie
(<= May 1972, death of the Minister of State)
lub(<= Mid-1980, [the great leader] enjoyed popular support)
.Odpowiedzi:
Ogólnie rzecz biorąc, problem identyfikowania dat i innych znaczników czasowych w tekście nazywa się problemem wyodrębniania odniesień czasowych . Połączone wyszukiwanie przeniesie Cię do dokumentów z tym związanych.
źródło
Ponieważ poprosisz o podejście algorytmiczne, będę tak uparty jak algorytm. Przykro mi, że traktuję to pytanie w ten sposób, ale ponieważ nie wydaje się to złożonym problemem teoretycznym, zsyntetyzuję możliwe podejścia.
Pytanie: czy możesz podać mi algorytmiczną definicję daty i konkretnego zdarzenia?
Jeśli potrafisz: Ponieważ twoja definicja jest algorytmiczna, to prawdopodobnie jest to gramatyka formalna , a twoim problemem będzie dostrojenie tej gramatyki, aby uwzględnić każdy przypadek, który musisz rozważyć. (Jestem zainteresowany, czy możesz podać mi dokładną definicję, która nie jest gramatyką formalną)
Jeśli nie możesz: przynajmniej możesz wymyślić przykłady. W porządku. Najlepszym - i tylko o tym myślę - podejściem są algorytmy uczenia maszynowego, które musisz trenować, aby rozpoznać daty, a następnie wydarzenia. (Używanie korpusu zdań opatrzonych adnotacjami ręcznie) Jest to jednak dość zawyżone w porównaniu do niektórych dużych wyrażeń regularnych, które prawdopodobnie wykonają zadanie. Jeśli naprawdę chcesz to zrobić, myślę, że najskuteczniejszym będzie ten rodzaj wyrażenia regularnego podanego jako parametr algorytmu uczenia się, ale lepiej zapytaj ekspertów ds. Uczenia maszynowego.
Powodzenia z tym, o wiele łatwiej jest po prostu o tym porozmawiać (w obu przypadkach).
źródło