Teraz jestem ciekawy: co jest w tym takiego tajemniczego? Nigdy nie rzeczywiście wykorzystane NLTK, a znalezienie takiej odpowiedzi zajęło mi pięć minut googlowania i searching ... Czy to naprawdę , że ukryte?
phipsgabler
5
Myślę, że to nie jest kwestia tego, jak ukryte, to też przyszło mi do głowy, próbując otagować pojedyncze zdanie, ponieważ szukam powodu, dla którego nltk oznacza moje czasowniki jako rzeczowniki i nie wiedziałem, jak różne tagi może być użyty. To też było pomocne, dzięki!
Phonebox
2
@phipsgabler Jeśli inni są tacy jak ja, miałem złe oczekiwania. Spodziewałem się tabeli przeglądowej / listy / mapy, odwzorowującej akronimy pozycji, takie jak RBich znaczenie adverb. ( Oto przykład ; lub zobacz odpowiedź @ Suzana, która łączy zestaw znaczników Penn Treebank ). Ale masz rację, polecenie wbudowane nltk.help.upenn_tagset('RB')jest pomocny, i wspomniał na początku nltkksiążki ,
Red Pea
137
Aby zaoszczędzić trochę czasu, oto lista, którą wyodrębniłem z małego korpusu. Nie wiem, czy jest kompletna, ale powinna zawierać większość (jeśli nie wszystkie) definicji pomocy z upenn_tagset ...
CC : koniunkcja, koordynacja
&'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet
CD : liczebnik, kardynał
mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s.025
fifteen 271,124 dozen quintillion DM2,000...
DT : determinator
all an another any both del each either every half la many much nary
neither no some such that the them these this those
EX : egzystencjalny
there
IN : przyimek lub koniunkcja, podrzędność
astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...
JJ : przymiotnik lub liczebnik, porządkowa
third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...
further gloomier grander graver greater grimmer harder harsher
healthier heavier higher however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower more ...
RBS : przysłówek, stopień najwyższy
best biggest bluntest earliest farthest first furthest hardest
heartiest highest largest least less most nearest second tightest worst
RP : cząstka
aboard about across along apart around aside at away back before behind
by crop down ever fast for forth from go high i.e.in into just later
low more off on open out over per pie raising start teeth that through
under unto up up-pp upon whole with you
Dzięki! Powinno to być wybrana odpowiedź, ponieważ jest ona znacznie bardziej wszechstronna niż zwykła odpowiedź, po prostu wpisz coś w konsoli, aby się dowiedzieć.
slartibartfast
63
Zestaw tagów zależy od korpusu, który został użyty do szkolenia taggera. Domyślny tagger nltk.pos_tag()używa zestawu znaczników Penn Treebank .
W NLTK 2 możesz sprawdzić, który tagger jest domyślnym taggerem w następujący sposób:
Dziękuję, imo, to o wiele bardziej przydatna odpowiedź niż zaakceptowana.
Dale
3
To jest niepełna odpowiedź. Po pierwsze, nltk.tag._POS_TAGGERnie wykonuje się i nie ma konkretnych instrukcji dotyczących tego, co należy importować. Ponadto, stwierdzenie, że używany tagger jest połową odpowiedzi, pytanie brzmi: prosi o uzyskanie listy wszystkich możliwych tagów w taggerze
Hamman Samuel
3
To korpus, a nie tagger określa zestaw tagów. Gdy tylko poznasz nazwę korpusu, cały zestaw tagów jest dostępny tylko w Google.
Suzana
34
Poniższe mogą być przydatne, aby uzyskać dostęp do dyktu ze skrótami:
Przyjmuję to jako wygodę. Rozważałem ulepszenie formatowania, ale może to być sprzeczne z celem tego postu. Rozważ edycję i używanie formatowania kodu w połączeniu z nowymi wierszami, aby uzyskać zarówno ładne formatowanie, jak i łatwość kopiowania i wklejania. stackoverflow.com/editing-help
Yunnosch
Rozważałem zrobienie tego, ale myślę, że byłoby to mniej wygodne.
RB
ich znaczenieadverb
. ( Oto przykład ; lub zobacz odpowiedź @ Suzana, która łączy zestaw znaczników Penn Treebank ). Ale masz rację, polecenie wbudowanenltk.help.upenn_tagset('RB')
jest pomocny, i wspomniał na początkunltk
książki ,Aby zaoszczędzić trochę czasu, oto lista, którą wyodrębniłem z małego korpusu. Nie wiem, czy jest kompletna, ale powinna zawierać większość (jeśli nie wszystkie) definicji pomocy z upenn_tagset ...
CC : koniunkcja, koordynacja
CD : liczebnik, kardynał
DT : determinator
EX : egzystencjalny
IN : przyimek lub koniunkcja, podrzędność
JJ : przymiotnik lub liczebnik, porządkowa
JJR : przymiotnik, stopień porównawczy
JJS : przymiotnik, stopień najwyższy
LS : znacznik pozycji listy
MD : modalne pomocnicze
NN : rzeczownik, pospolity, liczba pojedyncza lub masa
NNP : rzeczownik, właściwy, liczba pojedyncza
NNS : rzeczownik, pospolity, liczba mnoga
PDT : środek wstępny
POS : marker dopełniacza
PRP : zaimek osobowy
PRP $: zaimek dzierżawczy
RB : przysłówek
RBR : przysłówek, stopień porównawczy
RBS : przysłówek, stopień najwyższy
RP : cząstka
TO : „to” jako przyimek lub bezokolicznik
UH : wykrzyknik
VB : czasownik, forma podstawowa
VBD : czasownik, czas przeszły
VBG : czasownik, imiesłów teraźniejszy lub gerundium
VBN : czasownik, imiesłów bierny
VBP : czasownik, czas teraźniejszy, a nie trzecia osoba liczby pojedynczej
VBZ : czasownik, czas teraźniejszy, 3. osoba liczby pojedynczej
WDT : WH-determininer
WP : zaimek WH
WRB : Wh-przysłówek
źródło
$
,''
,(
,)
,,
,--
,.
,:
,FW
,NNPS
,SYM
,WP$
, [dwóch backticks]. Zobacznltk.help.upenn_tagset()
.Zestaw tagów zależy od korpusu, który został użyty do szkolenia taggera. Domyślny tagger
nltk.pos_tag()
używa zestawu znaczników Penn Treebank .W NLTK 2 możesz sprawdzić, który tagger jest domyślnym taggerem w następujący sposób:
Oznacza to, że jest to tagger Maximum Entropy wyszkolony w korpusie Treebank.
nltk.tag._POS_TAGGER
nie istnieje już w NLTK 3, ale dokumentacja stwierdza, że gotowy tagger nadal używa zestawu znaczników Penn Treebank.źródło
nltk.tag._POS_TAGGER
nie wykonuje się i nie ma konkretnych instrukcji dotyczących tego, co należy importować. Ponadto, stwierdzenie, że używany tagger jest połową odpowiedzi, pytanie brzmi: prosi o uzyskanie listy wszystkich możliwych tagów w taggerzePoniższe mogą być przydatne, aby uzyskać dostęp do dyktu ze skrótami:
źródło
Odniesienie jest dostępne na oficjalnej stronie
Skopiuj i wklej stamtąd:
źródło
Listę możesz pobrać tutaj: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Obejmuje mylące części mowy, wielkie litery i inne konwencje. Również Wikipedia ma podobną interesującą sekcję. Sekcja: używane znaczniki części mowy.
źródło
Oparty na metodzie Douga Shore'a, ale powinien być bardziej przyjazny dla kopiowania i wklejania
źródło
Po prostu uruchom to dosłownie.
nltk.tag._POS_TAGGER
nie zadziała. Daje AttributeError: moduł „nltk.tag” nie ma atrybutu „_POS_TAGGER” . Nie jest już dostępny w NLTK 3.źródło