Kürzlich habe ich an den NLP herangegangen und ich habe versucht, NLTK und TextBlob für die Analyse von Texten zu verwenden. Ich möchte eine App entwickeln, die Bewertungen von Reisenden analysiert und so viele Texte in verschiedenen Sprachen verwalten muss. Ich muss zwei Hauptoperationen durchführen: POS Tagging und Lemmatisierung. Ich habe, dass es in NLTK gesehen Wahl eine Möglichkeit, die für Sätze tokenization wie dies die richtige Sprache ist:Multilingual NLTK für POS Tagging und Lemmatizer
tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle')
ich nicht den richtigen Weg gefunden haben, die Sprache für POS-Tagging und Lemmatizer in verschiedenen Sprachen einzustellen noch. Wie kann ich die korrekten Korpora/Wörterbücher für nicht-englische Texte wie Italienisch, Französisch, Spanisch oder Deutsch einstellen? Ich sehe auch, dass es eine Möglichkeit gibt, die Module "TreeBank" oder "WordNet" zu importieren, aber ich verstehe nicht, wie ich sie benutzen kann. Wo finde ich sonst die entsprechenden Korpora?
Können Sie mir einen Vorschlag oder eine Referenz geben? Bitte achten Sie darauf, dass ich kein Experte von NLTK bin.
Vielen Dank.
Ich habe diesen Tagger für Thai versucht, aber es scheint nicht zu funktionieren. Es gibt mir eine ganze lange Schnur als NCNM. Muss es stattdessen eine Reihe von Tokens aufnehmen? – aceminer
Ja, Sie müssen die Thai-Wortsegmentierung durchführen, bevor Sie den Tagger verwenden. – NQD