Szukam źródła rzeczowników, przysłówków, przymiotników i czasowników w kilku językach.
Chciałbym, aby listy były już podzielone i nie musiałem ręcznie przeglądać OED (i odpowiedników w języku innym niż angielski), ręcznie tworząc te listy.
Naprawdę nie dbam o definicje i rozumiem, że niektóre słowa mogą być wieloma częściami mowy - to dobrze - słowa takie jak „wiele” mogą być rzeczownikiem lub przymiotnikiem i mogą pojawiać się na obu listach.
Czy ktoś tu wie o takim źródle? Jeśli nie, to czy ktoś może skierować mnie w dobrym kierunku?
Nie przeszkadza mi żaden z poniższych formatów (lub podobny, jeśli ludzie mają pomysły):
- csv:
<word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
- pliki tekstowe, takie jak „rzeczowniki”, „czasowniki” itp
- tabela mysql
- itp
Odpowiedzi:
W niektórych projektach korzystałem z WordNet z Princeton University. To jest leksykalna baza danych w języku angielskim. Global WordNet jest rozszerzeniem projektu, który próbuje zrobić to samo dla wszystkich języków.
Możesz być także zainteresowany powiązanymi projektami na stronie http://wordnet.princeton.edu/wordnet/related-projects/
źródło
To nie może w ogóle pomóc, nie wiem. Ale MediaWiki ma interfejs API do wyświetlania wszystkich stron należących do określonej kategorii. Możesz spróbować użyć go na Wiktionary.org.
Uwagi:
Przykłady:
Mam nadzieję, że to pomaga, to jest to, co mogłem wymyślić.
źródło
Popieram @teknikqa sugestię wordnet, ale sugerowałbym, abyś sprawdził ich API;
STORYTIME : Miałem kurs AI, który miał część analizy języka; Użyłem interfejsu API perla dla wordnet, aby automatycznie wyszukać trzy najlepsze typy definicji i sklasyfikować frazowanie z nich w prawie KONIEC STORYTIME
Istnieją interfejsy API dla wielu języków
FYI: Projekt otrzymał ocenę A +
źródło