Zestaw danych do rozpoznawania nazwanych jednostek w tekście nieformalnym

18

Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej „nieformalne” niż artykuły prasowe i wpisy do dziennika, że ​​wiele współczesnych systemów rozpoznawania nazwanych jednostek jest przeszkolony na.

Jakieś rekomendacje? Do tej pory udało mi się zlokalizować tylko 50 000 tokenów z opublikowanego tutaj Twittera .

Madison May
źródło
2
Polecam pytanie na opendata.stackexchange.com
Air
@Madison May. Znalazłeś zestaw danych? Szukam czegoś podobnego. Dzięki.
ahoffer
Musiałem zadowolić się twitter ner corpus z U. Washington (link do oryginalnego postu).
Madison,
masz jakiś pokrewny korpus z adnotacjami w języku angielskim?
Achyuta nanda sahoo

Odpowiedzi:

6

Jak rozumiem, są to właściwości, których szukasz w przykładowym zbiorze danych:

  1. Dane tekstowe
  2. Powinien być nieformalny, tzn. Mieć literówki, slang i zasadniczo coś, co nie jest profesjonalnie edytowane
  3. Coś innego niż Twitter (nie obwiniam cię, Twitter jest przydatnym, ale w dużym stopniu nadużywanym przykładowym źródłem danych w eksploracji tekstu)

Oto kilka zaleceń:

  1. E-maile z korpusu SpamAssassin - zwróć uwagę, że dostępne są zarówno zestawy danych „ham” (niebędące spamem), jak i zestawy spamu
  2. zestaw danych microblogPCU z UCI, który jest danymi zeskrobanymi z mikroblogów użytkowników Sina Weibo - uwaga, surowe dane tekstowe to mieszanka chińskiego i angielskiego (można wykonać tłumaczenie maszynowe chińskiego, filtrować tylko na angielski lub użyć go jak jest)
  3. Amazon Commerce przegląda zestaw danych z UCI
  4. W zestawie danych bag-o-words spróbuj użyć wiadomości e-mail Enron
  5. Zestaw danych Twenty Newsgroups
  6. Ta ładna kolekcja spamu SMS
  7. Zawsze możesz zeskrobać (wyodrębnić) własne dane tekstowe z Internetu; Nie jestem pewien, w jakim języku lub pakiet statystyczny używasz, ale pakiety XPath oparte są dostępne w R ( rvest, scrapeR, etc) i Pythonie do osiągnięcia tego
Hack-R
źródło
1
Czy którykolwiek z tych zestawów danych jest opatrzony adnotacjami z nazwanymi podmiotami? Myślę, że tego właśnie szukał OP.
Mr. Phil