Szukam dużego (> 1000) korpusu tekstu do pobrania. Najlepiej z wiadomościami ze świata lub raportami . Znalazłem tylko jednego z patentami. Jakieś sugestie?
To pytanie wydaje się być nie na temat, ponieważ dotyczy znalezienia zestawu danych, a nie analizy statystycznej
Peter Flom - Przywróć Monikę
2
Cóż, to niezręczne, ponieważ te pytania i odpowiedzi są naprawdę przydatne.
Pokaz boczny Bob
@ guaka, proszę nie podbijać tak starych postów w przypadku tak drobnych zmian, zwłaszcza postu, który jest zamknięty. To prawda, że naszym stylem nie jest „dziękuję”, ale za coś tak drobnego po prostu zostawilibyśmy to.
To nie jest najciekawszy (ani różnorodny) korpus. Licencja jest również restrykcyjna w stosunku do Wikileaks (dokumenty publiczne w USA) lub wikinews.
ariddell
@ariddell Zgadzam się, ale jest powszechnie używany we wstępnych przykładach NLP i jest wystarczająco duży, aby być przydatnym w nauce, ale wystarczająco mały, aby można go było analizować na dobrym laptopie.
Odpowiedzi:
Czy teksty Wikileaks nie odpowiadają tobie?
źródło
Co z wikinews ? Oto najnowszy zrzut bazy danych, który mogłem znaleźć: http://dumps.wikimedia.org/enwikinews/20111120/
Prawdopodobnie chcesz „Wszystkie strony, tylko bieżące wersje.” - wersja.
źródło
Korpus tekstowy Reutera jest klasykiem w tej dziedzinie i można go znaleźć tutaj
źródło
http://endb-consolidated.aihit.com/datasets.htm zawiera 10 tys. firm z opisami tekstowymi
źródło
Jeśli aktualność nie stanowi problemu, możesz spróbować
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
w infochimp istnieje wiele innych podobnych zestawów danych, w zależności od budżetu.
Pozdrawiam, Andy.
źródło
Jeśli chcesz wstępnie obliczyć n-gramów, możesz wypróbować archiwum książek Google:
http://books.google.com/ngrams/datasets
źródło