Jak zdobyć bazę danych słów w języku angielskim? [Zamknięte]

148

Potrzebuję bazy danych wszystkich ważnych słów w języku angielskim. Sprawdziłem /usr/share/dict/wordsplik, zawiera mniej niż 100 tys. Słów. Według Wikipedii angielski ma 475 tys. Słów. Gdzie znajdę pełną listę (pisownia amerykańska)?

Czy istnieje też jedna witryna internetowa, która zawiera słowa także w innych językach, w tym w językach azjatyckich i europejskich?

Edycja: zapomniałem dodać, nie potrzebuję nazw itp., Tylko prawidłowe angielskie słowa.

Costique
źródło
9
Mój /usr/share/dict/wordsma 479829 słów, więc może jest tutaj jakaś wariacja (i może być odpowiednia dla innych).
marshall.ward
4
wc -l /usr/share/dict/wordsna Macu to 235.886 słów (lipiec 2014 - OSX Mavericks
10.9.4
2
Najlepsza lista, jaką znalazłem: raw.githubusercontent.com/docdis/english-words/master/… . Podziękowania dla @nelsonic.
james.garriss
1
Listę roboczą można uzyskać tutaj marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. poszukaj linku LISTA SŁÓW po prawej stronie
kofifus

Odpowiedzi:

75

Baza danych WordNet może być pomocna. Kiedyś pracowałem nad dodatkiem do Firefoksa, który zajmuje się słowami i wszelkiego rodzaju prostymi lub skomplikowanymi skojarzeniami między nimi a rzeczami. Wygląda na to, że WordNet będzie dla ciebie bardzo przydatny.

Tutaj jest w formacie MySQL . A ten (łącze zarchiwizowane w Internecie) wykorzystuje dane Wordnet v3.0, a nie starsze dane Wordnet 2.0.

user266803
źródło
czy mają też listę do pobrania?
1
Tak, umożliwiają pobieranie bazy danych w wielu formatach - CSV, baza danych MySQL itp., A nawet mają interfejsy API, z których można korzystać za pośrednictwem .Net, Java itp. ... To jest strona pobierania - wordnet.princeton .edu / wordnet / download
user266803
Nie pobrałem go osobiście, ale był gotowy, kiedy zacząłem kodować. Więc nie wiem, jakie pliki będą tam do pobrania. Po prostu wiem, że możesz pobierać w różnych formatach. Jeśli możesz mi powiedzieć, w jakim formacie chcesz, będę mógł pomóc.
user266803
Naprawdę wygląda na bardzo interesujący projekt.
Wim Hollebrandse,
36

Możesz znaleźć to, czego potrzebujesz, na infochimps.org .

Mają listę 350 000 prostych (tj. Niezłożonych) słów dostępnych do bezpłatnego pobrania.

Lista słów - ponad 350 000 prostych angielskich słów

Jeśli chodzi o inne języki, możesz przejrzeć Wikisłownik. Oto link do wszystkich kopii zapasowych bazy danych - informacje nie są tak uporządkowane, ale jeśli mają język, możesz pobrać dane w formacie SQL.

danben
źródło
6
Link do pobrania się zmienił - infochimps.com/datasets/…
Chris Rae
36
Irytująco plik infochimps to .xls (plik Excela ze słowami podzielonymi na 6 arkuszy!) ... Wyodrębniłem wszystkie 354986 słów do pliku txt : github.com/nelsonic/english-words
nelsonic
@nelsonic wielkie dzięki, link do infochimps to 404
1
@ChrisRae oba linki nie działają
garg10
5
Wygląda na to, że zawierają słowa z błędami ortograficznymi, jak np. technologia - prawdopodobnie dlatego, że zbierają wszystko, co pojawia się w sieci. jest więc dobry do łamania / sprawdzania poprawności haseł, ale nie nadaje się do aplikacji wymagających prawdziwych słów (takich jak sprawdzanie pisowni itp.).
maksymalnie
13

Nie widzę wspomnianego tutaj http://wordlist.sourceforge.net/ , ale od tego bym zaczął, gdybym szukał czegoś takiego (i byłem, kiedy natknąłem się na to pytanie).

Jeśli nie możesz tam znaleźć tego, czego szukasz, a szukasz listy angielskich słów, prawdopodobnie powinieneś poświęcić trochę czasu na opisanie, jak rozpoznać, czego chcesz.

rdm
źródło
1
Miałem nadzieję, że te szersze listy będą zawierały słowa z interpunkcją, takie jak „C ++” lub „C #”, ale nie mogłem znaleźć żadnego. Więc jeśli to jest to, czego szukasz, możesz zwarcie, możesz pominąć ten (i węższe listy w innych odpowiedziach).
płyty kuchenne
9

Nie ma czegoś takiego jak „pełna” lista. Różni ludzie mają różne sposoby pomiaru - na przykład mogą obejmować slang, neologizmy, wyrażenia wielowyrazowe, obraźliwe terminy, obce słowa, koniugacje czasowników i tak dalej. Niektórzy policzyli nawet milion słów ! Musisz więc zdecydować, co chcesz na liście słów.

JW.
źródło
3
Dzięki za ten link. Bardzo pouczająca lektura na temat tego, ile słów jest w języku angielskim i bezskuteczności próby ustalenia ich ostatecznej liczby. Bardziej zwięzłą i aktualną lekturę można znaleźć na stronie: en.oxforddictionaries.com/explore/language-questions/… .
Prometeusz
4

Możesz sprawdzić *spell słownik en-GB używany przez Mozillę, OpenOffice i wiele innych programów.

mloskot
źródło
link na mozilla pl-gb.pyxidium.co.uk/dictionary/en_GB.zip mówi, że serwer nie został znaleziony, jakaś aktualizacja? dzięki
@AMB Dzięki, zaktualizowałem link, aby wskazywał na alternatywne źródło słownika pod adresem extensions.openoffice.org/en/project/ ...
mloskot
A teraz nowy link to 404, @mloskot.
james.garriss
@ james.garriss Obawiam się, że cała witryna extensions.openoffice.org nie działa .
mloskot
3

Nie powiedziałeś, do czego potrzebujesz tej listy. Jeśli coś, co jest używane jako czarna lista do sprawdzania haseł, wystarczy, cracklib może być dla Ciebie dobry. Zawiera ponad 1,5 mln słów.

Benjamin Bannier
źródło
1
nie, nie na czarną listę. Robię jakąś grę słowną / wykres.
Zawiera dużo „śmieciowych słów”, ale nadal jestem bardzo wdzięczny, że umieściłeś to tutaj - jest to idealne rozwiązanie, gdy szukasz określonych słów, których nie mają inne słowniki (np.
Wóz