Źródła listy słów

11

Szukam źródła rzeczowników, przysłówków, przymiotników i czasowników w kilku językach.

Chciałbym, aby listy były już podzielone i nie musiałem ręcznie przeglądać OED (i odpowiedników w języku innym niż angielski), ręcznie tworząc te listy.

Naprawdę nie dbam o definicje i rozumiem, że niektóre słowa mogą być wieloma częściami mowy - to dobrze - słowa takie jak „wiele” mogą być rzeczownikiem lub przymiotnikiem i mogą pojawiać się na obu listach.

Czy ktoś tu wie o takim źródle? Jeśli nie, to czy ktoś może skierować mnie w dobrym kierunku?

Nie przeszkadza mi żaden z poniższych formatów (lub podobny, jeśli ludzie mają pomysły):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • pliki tekstowe, takie jak „rzeczowniki”, „czasowniki” itp
  • tabela mysql
  • itp
królikarnia
źródło

Odpowiedzi:

8

W niektórych projektach korzystałem z WordNet z Princeton University. To jest leksykalna baza danych w języku angielskim. Global WordNet jest rozszerzeniem projektu, który próbuje zrobić to samo dla wszystkich języków.

Możesz być także zainteresowany powiązanymi projektami na stronie http://wordnet.princeton.edu/wordnet/related-projects/

teknikqa
źródło
1
WordNet jest właściwą drogą. Korzystają z tego wszyscy najlepsi badacze.
Ritwik Bose
4

To nie może w ogóle pomóc, nie wiem. Ale MediaWiki ma interfejs API do wyświetlania wszystkich stron należących do określonej kategorii. Możesz spróbować użyć go na Wiktionary.org.

Uwagi:

  • Każde zapytanie zwraca tylko 500 wyników. Jednak na końcu określa również parametr, który należy zastosować w innym zapytaniu, aby uzyskać kolejne 500 wyników.
  • Obejmuje wszystko w określonej kategorii, nawet inne podkategorie.
  • Wyniki wydają się być uporządkowane alfabetycznie, chociaż wszystko, co zaczyna się od dużej litery, ma pierwszeństwo przed małymi literami.

Przykłady:

Mam nadzieję, że to pomaga, to jest to, co mogłem wymyślić.

Matt Blaine
źródło
1

Popieram @teknikqa sugestię wordnet, ale sugerowałbym, abyś sprawdził ich API;

STORYTIME : Miałem kurs AI, który miał część analizy języka; Użyłem interfejsu API perla dla wordnet, aby automatycznie wyszukać trzy najlepsze typy definicji i sklasyfikować frazowanie z nich w prawie KONIEC STORYTIME

Istnieją interfejsy API dla wielu języków

FYI: Projekt otrzymał ocenę A +

Andrew Bolster
źródło