Jak trenować Parser Stanforda z Genią Corpus?

Question 1

Mam pewne problemy z utworzeniem nowego modelu dla Stanford Parser.

Pobrałem również ostatnią wersję ze Stanford: http://nlp.stanford.edu/software/lex-parser.shtml

A tutaj Genia Corpus w 2 formatach, xml i ptb (Penn Treebank).

Standford Parser może trenować z plikami ptd; potem pobrałem Genia Corpus, bo chcę pracować z tekstem biomedycznym:

~~http://categorizer.tmit.bme.hu/~illes/genia_ptb/~~ ^{(link nie jest już dostępny)} (genia_ptb.tar.gz)

Następnie mam krótką klasę główną, aby uzyskać reprezentację zależności jednego zdania biomedycznego:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

Próbowałem różnych sposobów, ale zawsze otrzymuję ten sam wynik.

Mam błąd w ostatniej linii. Oto mój wynik:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
    at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
    at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
    at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
    ... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
    at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:169)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
    ... 7 more

Jak mogę stworzyć nowy model z tym korpusem?

Question 2

Jak stwierdził Andrucz w swoim komentarzu, prawdziwą przyczyną twojego problemu wydaje się być brakująca klasa.

Spróbuj sprawdzić, czy poprawnie zaimportowałeś swoją bibliotekę (i upewnij się, że zawiera ona klasę EnglishUnknownWordModelTra‌inerw formacie edu.stanford.nlp.parser.lexparser.

(Jeśli używasz Mavena, sprawdź, czy poprawnie dodałeś zależność - szybki przegląd w Google: Stanford Parser Maven Repo )

Question 3

Czy biblioteka NLP została zainstalowana poprawnie? Sprawdź dzienniki, aby sprawdzić, czy nie ma błędów. W większości przypadków ten problem występuje, gdy biblioteka stanford nltk nie jest poprawnie instalowana.

Szybkim sposobem sprawdzenia jest uruchomienie GUI w celu wypróbowania parsera, czy działa on pomyślnie, a następnie biblioteka jest zainstalowana poprawnie, w przeciwnym razie, jeśli powoduje to błędy, to wiesz, że instalacja była słaba.

Witryna Stanford również wspomina o tym:

Jeśli nie znasz się na parsowaniu, możesz zacząć od uruchomienia GUI, aby wypróbować parser. Dołączono skrypty dla linuksa (lexparser-gui.sh) i Windows (lexparser-gui.bat). Zapoznaj się z dokumentacją pakietu lexparser Javadoc i dokumentacją klasy LexicalizedParser. (Skieruj swoją przeglądarkę internetową na plik index.html w dołączonym katalogu javadoc i przejdź do tych pozycji). Zajrzyj do FAQ parsera, aby znaleźć odpowiedzi na typowe pytania. Jeśli to nie pomoże, zapoznaj się z naszymi wskazówkami dotyczącymi poczty e-mail, aby uzyskać instrukcje, jak skontaktować się z nami w celu uzyskania dalszej pomocy.

Question 4

Sprawdź, czy poprawnie zaimportowałeś bibliotekę i upewnij się, że zawiera ona klasę {EnglishUnknownWordModelTra‌ iner}, a także upewnij się, że pobrana wersja działa poprawnie z Genia Corps.

Answer 1

Mam pewne problemy z utworzeniem nowego modelu dla Stanford Parser.

Pobrałem również ostatnią wersję ze Stanford: http://nlp.stanford.edu/software/lex-parser.shtml

A tutaj Genia Corpus w 2 formatach, xml i ptb (Penn Treebank).

Standford Parser może trenować z plikami ptd; potem pobrałem Genia Corpus, bo chcę pracować z tekstem biomedycznym:

~~http://categorizer.tmit.bme.hu/~illes/genia_ptb/~~ ^{(link nie jest już dostępny)} (genia_ptb.tar.gz)

Następnie mam krótką klasę główną, aby uzyskać reprezentację zależności jednego zdania biomedycznego:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

Próbowałem różnych sposobów, ale zawsze otrzymuję ten sam wynik.

Mam błąd w ostatniej linii. Oto mój wynik:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
    at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
    at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
    at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
    ... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
    at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:169)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
    ... 7 more

Jak mogę stworzyć nowy model z tym korpusem?

Answer 2

2

czek: stackoverflow.com/a/3158157/2128327

Khaled.K

Answer 3

Możliwy duplikat tego, jak mogę utworzyć własny korpus szkoleniowy dla Stanforda Taggera?

Andremoniy

Answer 4

5

Prawdziwą przyczyną jest „java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer”. Czy nlp.stanford.edu/software/… ma tę klasę? Nie mogę w tej chwili pobrać 900 MB, aby to sprawdzić.

andrucz

Answer 5

1

Wypróbuj ten film, który może ci pomóc, youtube.com/watch?v=w4rWpvBjBRI

Laxman G

Answer 6

Jak stwierdził Andrucz w swoim komentarzu, prawdziwą przyczyną twojego problemu wydaje się być brakująca klasa.

Spróbuj sprawdzić, czy poprawnie zaimportowałeś swoją bibliotekę (i upewnij się, że zawiera ona klasę EnglishUnknownWordModelTra‌inerw formacie edu.stanford.nlp.parser.lexparser.

(Jeśli używasz Mavena, sprawdź, czy poprawnie dodałeś zależność - szybki przegląd w Google: Stanford Parser Maven Repo )

Answer 7

Czy biblioteka NLP została zainstalowana poprawnie? Sprawdź dzienniki, aby sprawdzić, czy nie ma błędów. W większości przypadków ten problem występuje, gdy biblioteka stanford nltk nie jest poprawnie instalowana.

Szybkim sposobem sprawdzenia jest uruchomienie GUI w celu wypróbowania parsera, czy działa on pomyślnie, a następnie biblioteka jest zainstalowana poprawnie, w przeciwnym razie, jeśli powoduje to błędy, to wiesz, że instalacja była słaba.

Witryna Stanford również wspomina o tym:

Jeśli nie znasz się na parsowaniu, możesz zacząć od uruchomienia GUI, aby wypróbować parser. Dołączono skrypty dla linuksa (lexparser-gui.sh) i Windows (lexparser-gui.bat). Zapoznaj się z dokumentacją pakietu lexparser Javadoc i dokumentacją klasy LexicalizedParser. (Skieruj swoją przeglądarkę internetową na plik index.html w dołączonym katalogu javadoc i przejdź do tych pozycji). Zajrzyj do FAQ parsera, aby znaleźć odpowiedzi na typowe pytania. Jeśli to nie pomoże, zapoznaj się z naszymi wskazówkami dotyczącymi poczty e-mail, aby uzyskać instrukcje, jak skontaktować się z nami w celu uzyskania dalszej pomocy.

Answer 8

Sprawdź, czy poprawnie zaimportowałeś bibliotekę i upewnij się, że zawiera ona klasę {EnglishUnknownWordModelTra‌ iner}, a także upewnij się, że pobrana wersja działa poprawnie z Genia Corps.

Jak trenować Parser Stanforda z Genią Corpus?

Odpowiedzi: