Próbuję zebrać statystyki dotyczące sekwencji znaków lub słów używanych w języku angielskim do wykorzystania w projekcie oprogramowania.
Gdzie mogę uzyskać dużą ilość (byłoby to kilka GB) zwykłego tekstu w języku angielskim obejmującego różnorodny zestaw tematów?
research
statistics
JSideris
źródło
źródło
Odpowiedzi:
Możesz użyć zrzutów danych Wikipedii . Zrzutu danych XML na angielskiej Wikipedii , który zawiera aktualne wersje wynosi tylko około 31 GB, więc powiedziałbym, że będzie to początek dobre dla badań. Zrzut danych jest dość duży, dlatego należy rozważyć wyodrębnienie tekstów z XML za pomocą analizatora składni SAX. WikiXMLJ to poręczny interfejs API Java dostosowany do Wikipedii.
A potem oczywiście zawsze jest są zrzuty danych Stack Exchange . Najpóźniej jeden obejmuje wszystkie publiczne non-beta Stos Exchange witryn i odpowiadające Meta witryn do września 2011. Ale, naturalnie posty Stos Exchange są skoncentrowane na zakres każdej stronie, więc prawdopodobnie nie jako uogólniona, jak można chcieć. Posty w Meta są jednak nieco bardziej ogólne, więc możesz je rozważyć oprócz Wikipedii.
Nie sądzę, że znajdziesz coś lepszego, zwłaszcza w postaci zwykłego tekstu. Kilka otwartych zestawów danych jest dostępnych przez Data Hub , ale myślę, że zrzut danych z angielskiej Wikipedii jest bardzo zbliżony do tego, czego szukasz.
źródło
Google ma zbiór zestawów danych, których używają do określania prawdopodobieństw n-gramowych. Sprawdzanie ich zestawów danych bigram (2-gramowych) powinno dać ci dobry obraz. Istnieje wiele innych firm, dla których te analizy zostały już wykonane.
źródło
Projekt Gutenberg ma duży zbiór tekstów w języku angielskim, już w formie tekstowej.
źródło
Dla statystyk prawdopodobnie patrzysz na „Częstotliwość Bigrama w języku angielskim”. Spojrzeć na: Wiki-Bigram Stats
jeśli chodzi o znalezienie dużego tekstu, należy pamiętać, że częstotliwość byłaby tendencyjna do rodzaju tekstu. Na przykład, jeśli przeanalizujesz adresy, uzyskasz inne wyniki niż analiza artykułów w gazetach. Jeśli chcesz tylko przetestować, możesz użyć pliku PDF dowolnej książki (lepiej nie być książką matematyczną, programistyczną lub medyczną) i przekonwertować go na tekst, a następnie uruchomić testy. Możesz także konwertować strony internetowe gazet na tekst i pracować nad nimi.
źródło