2016-06-30 10 views
0

Ich suche gerade wie man Tweets Sprachen erkennt. Ich fand die Apache-Bibliothek Tika, aber es funktioniert nicht gut ... Jetzt habe ich langedetect gefunden und ich versuche es zu verwenden. Derzeit habe ich eine Probe von Code gefunden, aber ich verstehe nicht, was die Datei „Profile“ ist ... Ich weiß nicht, was ich nach innen setzen muß ...LangDetect was ist Profil?

String path = "my path to the file profiles"; 
       DetectorFactory.loadProfile(path); 
       detector = DetectorFactory.create(); 
       detector.append(tweet); 
       langDetected = detector.detect(); 

Antwort

0

Vom documentation :

Bevor Sie diese Bibliothek verwenden, rufen Sie DetectorFactory#loadProfile() einmal zur Initialisierung auf.

DetectorFactory.loadProfile(profileDirectory); Der Parameter dieser Methode ist ein Verzeichnis mit Dateien mit Sprachprofilen. Die Sprachprofile sind mit dieser Bibliothek gebündelt. Geben Sie daher "trunk/profile" im Repository als Parameter loadProfile() an.

Profile-Dateien im Repository in den profiles subdirectory

+0

Vielen Dank! Es klappt. Ich musste nur Profile aus den JAR-Dateien extrahieren. – Arya