2015-03-29 12 views
11

Wenn ich Text klotz, bekomme ich viele Codes in der Ausgabe wie NN, VBD, IN, DT, NNS, RB. Gibt es irgendwo eine Liste, die mir die Bedeutung dieser Liste erklärt? Ich habe versucht googlen nltk chunk codenltk chunk grammarnltk chunk tokens.Was bedeutet NN VBD IN DT NNS RB in NLTK?

Ich kann jedoch keine Dokumentation finden, die erklärt, was diese Codes bedeuten.

Antwort

9

Die Tags, die Sie sehen, sind kein Ergebnis der Chunks, sondern die POS-Tagging, die vor dem Chunking passiert. Es ist die Penn Treebank tagset finden https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk 
>>> sent = "This is a Foo Bar sentence." 
# POS tag. 
>>> nltk.pos_tag(word_tokenize(sent)) 
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')] 
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent)) 
# Chunk. 
>>> ne_chunk(tagged_sent) 
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')]) 

die Stücke für Teilbäume innerhalb der chunked Ausgänge Blick zu erhalten. Von der obigen Ausgabe zeigt Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) den Chunk an.

Diese Tutorial-Site ist ziemlich hilfreich, um den Chunking-Prozess in NLTK, http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf zu erklären. siehe

Für offizielle Dokumentation, http://www.nltk.org/howto/chunk.html

0

Wie gesagt, von oben Alvas Diese Tags sind Teil-of-Rede, die, ob ein Wort sagt/Phrase Nominalphrase, Adverb, Bestimmer, Verb etc ...

Hier sind die POS Tag Details, die Sie beziehen können.

Chunking recovers the phrased from the Part of speech tags 

können Sie diese link verweisen für zum Lesen über Chunking.