Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej „nieformalne” niż artykuły prasowe i wpisy do dziennika, że wiele współczesnych systemów rozpoznawania nazwanych jednostek jest przeszkolony na.
Jakieś rekomendacje? Do tej pory udało mi się zlokalizować tylko 50 000 tokenów z opublikowanego tutaj Twittera .
Odpowiedzi:
Jak rozumiem, są to właściwości, których szukasz w przykładowym zbiorze danych:
Oto kilka zaleceń:
rvest
,scrapeR
, etc) i Pythonie do osiągnięcia tegoźródło
Sprawdź te:
Repozytorium domen testowych do pozyskiwania informacji: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( mirror )
Link zaktualizowany:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
źródło
Niektóre źródła, z których korzystałem:
Myślę, że te zestawy danych będą bardzo pomocne w twoim zadaniu
źródło