Gdzie mogę uzyskać różnorodny zestaw przykładowego tekstu? [Zamknięte]

14

Próbuję zebrać statystyki dotyczące sekwencji znaków lub słów używanych w języku angielskim do wykorzystania w projekcie oprogramowania.

Gdzie mogę uzyskać dużą ilość (byłoby to kilka GB) zwykłego tekstu w języku angielskim obejmującego różnorodny zestaw tematów?

JSideris
źródło
3
Jakoś wydaje mi się, że szczególnie ci się
podobają
@Yannis Rizos Są niesamowite: D.
JSideris
@ Yannis Rizos, och, są ładne ...
sevenseacat
@YannisRizos To zostało zamknięte kilka lat temu. W końcu przystąpiłem do edytowania pytania, aby było nieco bardziej szczegółowe i lepsze dla formatu QA. Czy mogę to teraz odblokować? (Jesteś jedyną osobą w tym wątku, która nadal jest moderatorem).
JSideris

Odpowiedzi:

19

Możesz użyć zrzutów danych Wikipedii . Zrzutu danych XML na angielskiej Wikipedii , który zawiera aktualne wersje wynosi tylko około 31 GB, więc powiedziałbym, że będzie to początek dobre dla badań. Zrzut danych jest dość duży, dlatego należy rozważyć wyodrębnienie tekstów z XML za pomocą analizatora składni SAX. WikiXMLJ to poręczny interfejs API Java dostosowany do Wikipedii.

A potem oczywiście zawsze jest są zrzuty danych Stack Exchange . Najpóźniej jeden obejmuje wszystkie publiczne non-beta Stos Exchange witryn i odpowiadające Meta witryn do września 2011. Ale, naturalnie posty Stos Exchange są skoncentrowane na zakres każdej stronie, więc prawdopodobnie nie jako uogólniona, jak można chcieć. Posty w Meta są jednak nieco bardziej ogólne, więc możesz je rozważyć oprócz Wikipedii.

Nie sądzę, że znajdziesz coś lepszego, zwłaszcza w postaci zwykłego tekstu. Kilka otwartych zestawów danych jest dostępnych przez Data Hub , ale myślę, że zrzut danych z angielskiej Wikipedii jest bardzo zbliżony do tego, czego szukasz.

Yannis
źródło
1
to są fajne zasoby.
hanzolo
Stosy, choć obszerne, obejmują bardzo wąskie pole dyskursu (z konieczności), więc mogą nie uogólniać się dobrze.
jonsca
Boże, te pliki są ogromne! Jak tylko znajdę sposób, aby je otworzyć i odfiltrować wszystkie bzdury xml, powinno to działać świetnie. Dzięki!
JSideris
1
@Bizorke Cieszę się, że mogłem pomóc. Kiedy skończysz, powinieneś zaktualizować pytanie o link do swoich badań.
yannis
5

Google ma zbiór zestawów danych, których używają do określania prawdopodobieństw n-gramowych. Sprawdzanie ich zestawów danych bigram (2-gramowych) powinno dać ci dobry obraz. Istnieje wiele innych firm, dla których te analizy zostały już wykonane.

jonsca
źródło
3
Ja po prostu pisząc to samo.
jcmeloni,
@jcmeloni Wielkie umysły!
jonsca
5

Projekt Gutenberg ma duży zbiór tekstów w języku angielskim, już w formie tekstowej.

Project Gutenberg oferuje ponad 42 000 bezpłatnych e-booków: wybieraj spośród bezpłatnych książek epub, bezpłatnych książek rozpalających, pobieraj je lub czytaj online.

Posiadamy wysokiej jakości ebooki: wszystkie nasze ebooki zostały wcześniej opublikowane przez wydawców bona fide. Zdygitalizowaliśmy je i starannie sprawdziliśmy przy pomocy tysięcy wolontariuszy ...

Michael Kohne
źródło
1
Myślałem o Projekcie Gutenberg, ale nie mogłem znaleźć skoncentrowanego zrzutu danych. Aby książka mogła zostać uwzględniona, jej prawa autorskie muszą wygasnąć, co ogólnie oznacza, że ​​minęło od 50 do 70 lat od pierwszej publikacji książek. Nie sądzę więc, aby jako zestaw danych Project Gutenberg był reprezentatywny dla języka, w jakim jest używany dzisiaj.
yannis
1
Jeśli chcesz czegoś, co jest „reprezentatywne dla używanego dziś języka”, wypróbuj komentarze na YouTube. Smutne ale prawdziwe.
Jörg W Mittag
@ JörgWMittag - ouch. To, co naprawdę mnie niepokoi, to to, jak się nie mylicie.
Michael Kohne
@ Jörg W Mittag Jest to możliwe, ale niektóre słowa specyficzne dla youtube pojawiały się bardzo często, na przykład: YOU UT TU UB BE, lub nawet gorzej: FA AK KE AN ND GA AY
JSideris
1

Dla statystyk prawdopodobnie patrzysz na „Częstotliwość Bigrama w języku angielskim”. Spojrzeć na: Wiki-Bigram Stats

jeśli chodzi o znalezienie dużego tekstu, należy pamiętać, że częstotliwość byłaby tendencyjna do rodzaju tekstu. Na przykład, jeśli przeanalizujesz adresy, uzyskasz inne wyniki niż analiza artykułów w gazetach. Jeśli chcesz tylko przetestować, możesz użyć pliku PDF dowolnej książki (lepiej nie być książką matematyczną, programistyczną lub medyczną) i przekonwertować go na tekst, a następnie uruchomić testy. Możesz także konwertować strony internetowe gazet na tekst i pracować nad nimi.

Bez szans
źródło
2
Tak, zdaję sobie sprawę, że wyniki będą stronnicze. Potrzebuję zasobu, który obejmuje jak najwięcej tematów. Zastanawiałem się nad pobraniem wielu e-książek, głównym problemem jest przekonwertowanie ich na tekst. Ale przeglądanie statystyk bigrama nie zaszkodzi (nie zdawałem sobie sprawy, że tak nazywają się kombinacje 2-literowe).
JSideris
Dziękuję za Twój komentarz. Możesz przekonwertować plik PDF na tekst za pomocą opcji Plik -> Zapisz jako tekst w czytniku PDF ADOBE. Ten link może mieć również wartość: data-compression.com/english.html
NoChance
@EmmadKareem OP prosi o kilka GB tekstu. Czy naprawdę sugerujesz, aby używał programu Adobe Reader do wyodrębniania tekstu z plików PDF?
yannis
@YannisRizos, nie zauważyłem, że kilka GB było obowiązkowym wymogiem. W takim przypadku istnieją lepsze narzędzia, które można wykorzystać do tego celu. Dzięki za zwrócenie na to uwagi.
NoChance