Identyfikowanie zdarzeń związanych z datami w akapicie

13

Czy istnieje algorytmiczne podejście do identyfikacji, że daty podane w akapicie są powiązane z określonymi zdarzeniami (frazami) w akapicie?

Przykład, rozważ następujący akapit:

W czerwcu 1970 roku wielki przywódca złożył przysięgę. Ale dopiero po maju 1972 r., Po śmierci ministra stanu, przejął stery kraju. Chociaż cieszył się popularnym poparciem do połowy 1980 roku, jego wpływy zaczęły spadać później.

Czy istnieje algorytm (deterministyczny lub stochastyczny) #, który może wygenerować 2-krotki (data, zdarzenie), w przypadku których zdarzenie , według akapitu, miało miejsce w dniu ? W powyższym przypadku:

  • (Czerwiec 1970, wielki przywódca złożył przysięgę)
  • (Maj 1972 r. Przejął stery)

    Lub jeszcze lepiej

  • (Maj 1972 wielki przywódca przejął stery)
  • (1980, spadek wpływów)

# Późniejsze dodanie

check123
źródło
2
Problem ten wydaje się obejmować trzy fazy: 1) daty wyodrębnienia, 2) zdarzenia wyodrębnienia i 3) korelują oba zestawy danych. 1) jest z pewnością wykonalna i mogę sobie wyobrazić przyzwoitą heurystykę dla 3), ale jak spodziewasz się rozwiązać 2)?
Raphael
1
@Raphael Nicea przeredagowanie mojego pytania!
sprawdź 123
Cóż zrobić masz jakieś informacje dotyczące 2), np ograniczony zestaw ciekawych wydarzeń (tj słów)? Czy chcesz wyodrębnić wszystkie pary rzeczowników / czasowników, o ile mają one datę?
Raphael
Czy chcesz też wyodrębnić ramy czasowe? W twoim przykładzie rozważ (<= May 1972, death of the Minister of State)lub (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael
@Raphael Przepraszamy za (bardzo) spóźnioną odpowiedź. Odnośnie 2) Nie. Próbuję uogólnionego podejścia.
sprawdź 123

Odpowiedzi:

4

Ogólnie rzecz biorąc, problem identyfikowania dat i innych znaczników czasowych w tekście nazywa się problemem wyodrębniania odniesień czasowych . Połączone wyszukiwanie przeniesie Cię do dokumentów z tym związanych.

Suresh
źródło
Nie wiedziałem, że problem ma nazwę. Sprawdzę więcej na ten temat i sprawdzę, czy mogę znaleźć coś wartościowego. :)
sprawdź123
2

Ponieważ poprosisz o podejście algorytmiczne, będę tak uparty jak algorytm. Przykro mi, że traktuję to pytanie w ten sposób, ale ponieważ nie wydaje się to złożonym problemem teoretycznym, zsyntetyzuję możliwe podejścia.

Pytanie: czy możesz podać mi algorytmiczną definicję daty i konkretnego zdarzenia?

Jeśli potrafisz: Ponieważ twoja definicja jest algorytmiczna, to prawdopodobnie jest to gramatyka formalna , a twoim problemem będzie dostrojenie tej gramatyki, aby uwzględnić każdy przypadek, który musisz rozważyć. (Jestem zainteresowany, czy możesz podać mi dokładną definicję, która nie jest gramatyką formalną)

Jeśli nie możesz: przynajmniej możesz wymyślić przykłady. W porządku. Najlepszym - i tylko o tym myślę - podejściem są algorytmy uczenia maszynowego, które musisz trenować, aby rozpoznać daty, a następnie wydarzenia. (Używanie korpusu zdań opatrzonych adnotacjami ręcznie) Jest to jednak dość zawyżone w porównaniu do niektórych dużych wyrażeń regularnych, które prawdopodobnie wykonają zadanie. Jeśli naprawdę chcesz to zrobić, myślę, że najskuteczniejszym będzie ten rodzaj wyrażenia regularnego podanego jako parametr algorytmu uczenia się, ale lepiej zapytaj ekspertów ds. Uczenia maszynowego.

Powodzenia z tym, o wiele łatwiej jest po prostu o tym porozmawiać (w obu przypadkach).

jmad
źródło
1
To powiedziawszy, myślę, że łączenie dat i wydarzeń na pewno będzie wymagać stochastycznych modeli.
Raphael
Daty w większości formatów, które mogę przechwycić za pomocą wyrażenia regularnego. Z pewną logiką programowania mogę wyodrębnić zdania wokół dat. Problem polega na tym, że potrzebuję modelu lub rozkładu prawdopodobieństwa, który przy określonym wzorze zdania, np .: kot zjadł mysz 25 sierpnia. [<artykul>> rzeczownik> <werb> <article> <rzeczownik> <prepozycja> <data>], pojawia się wtedy (pod) zestaw wzoru, Kot zjadł mysz (w naszym przypadku), koreluje z datą y (25 sierpnia) z prawdopodobieństwem z.
sprawdź 123
@jmad Jeśli nie masz nic przeciwko, możesz dostosować formatowanie swojego postu? Używanie stylu cytowania w przypadku cudzysłowu (lub samodzielnego cytowania?) Jest raczej mylące.
uli