Gdzie znaleźć duży korpus tekstowy? [Zamknięte]

16

Szukam dużego (> 1000) korpusu tekstu do pobrania. Najlepiej z wiadomościami ze świata lub raportami . Znalazłem tylko jednego z patentami. Jakieś sugestie?

Dimitar Vouldjeff
źródło
Ten wątek wydaje się być nie na temat. Zobacz meta.stats.stackexchange.com/questions/1032/… .
whuber
To pytanie wydaje się być nie na temat, ponieważ dotyczy znalezienia zestawu danych, a nie analizy statystycznej
Peter Flom - Przywróć Monikę
2
Cóż, to niezręczne, ponieważ te pytania i odpowiedzi są naprawdę przydatne.
Pokaz boczny Bob
@ guaka, proszę nie podbijać tak starych postów w przypadku tak drobnych zmian, zwłaszcza postu, który jest zamknięty. To prawda, że ​​naszym stylem nie jest „dziękuję”, ale za coś tak drobnego po prostu zostawilibyśmy to.
gung - Przywróć Monikę

Odpowiedzi:

9

Czy teksty Wikileaks nie odpowiadają tobie?

adamo
źródło
Ale jak mogę je pobrać w formacie .txt
Dimitar Vouldjeff
6

Co z wikinews ? Oto najnowszy zrzut bazy danych, który mogłem znaleźć: http://dumps.wikimedia.org/enwikinews/20111120/

Prawdopodobnie chcesz „Wszystkie strony, tylko bieżące wersje.” - wersja.

mogron
źródło
To już nie działa.
vy32
link zrzutu nie działa. zestaw danych według regionu jest mały i nieaktualny
HappyCoding
6

Korpus tekstowy Reutera jest klasykiem w tej dziedzinie i można go znaleźć tutaj

richiemorrisroe
źródło
To nie jest najciekawszy (ani różnorodny) korpus. Licencja jest również restrykcyjna w stosunku do Wikileaks (dokumenty publiczne w USA) lub wikinews.
ariddell
@ariddell Zgadzam się, ale jest powszechnie używany we wstępnych przykładach NLP i jest wystarczająco duży, aby być przydatnym w nauce, ale wystarczająco mały, aby można go było analizować na dobrym laptopie.
richiemorrisroe