Ich frage mich, ist es möglich, Stanford CoreNLP verwenden, um zu erkennen, in welcher Sprache ein Satz geschrieben ist? Wenn ja, wie genau können diese Algorithmen sein?Erkennung von Sprache mit Stanford NLP
Antwort
Fast sicher gibt es in Stanford COreNLP in diesem Moment keine Sprachidentifikation. "fast" - weil Nichtexistenz viel schwerer zu beweisen ist.
EDIT: Trotzdem sind unter Indizienbeweise:
- gibt es keine Erwähnung von Sprachidentifikation weder auf main page noch CoreNLP page, noch in FAQ (obwohl es eine Frage lautet: ‚Wie führe ich CoreNLP auf andere Sprachen? '), noch in 2014 paper von CoreNLP Autoren;
- Werkzeuge, die mehrere NLP-Bibliotheken kombinieren einschließlich Stanford CoreNLP verwenden eine andere Lib für die Sprache Identifikation, zum Beispiel DKPro Core ASL; auch other users über Sprachidentifikation und CoreNLP sprechen diese Fähigkeit zu Sprachidentifikation
- Quelldatei CoreNLP enthält
Language
Klassen, aber nichts im Zusammenhang nicht erwähnt - Sie können Prüfung manuell für alle 84 Auftreten von ‚Sprache‘ Wort here
Versuchen Sie TIKA oder TextCat oder Language Detection Library for Java (sie melden "99% über Präzision für 53 Sprachen").
Im Allgemeinen hängt die Qualität von der Größe des Eingabetextes ab: Wenn es lang genug ist (zB mehrere Wörter und nicht speziell gewählt), dann kann die Genauigkeit ziemlich gut sein - ungefähr 95%.
hört sich gut an, danke! –
Standford CoreNLP nicht Sprach-ID haben (zumindest noch nicht), siehe http://nlp.stanford.edu/software/corenlp.shtml
Es gibt Lasten mehr auf Spracherkennung/Identifikation-Tools. Aber nehmen Sie die berichtete Genauigkeit mit einer Prise Salz.
- eine Update Liste der Sprachen,
- eine wesentliche Länge der Testsätze und
- der gleichen Sprache und
- ein schiefer Anteil der Ausbildung Prüfung: Es ist in der Regel eng, begrenzt durch ausgewertet Instanzen.
Bemerkenswerte Sprache ID Werkzeuge umfasst:
- TextCat (http://cran.r-project.org/web/packages/textcat/index.html)
- CLD (https://code.google.com/p/cld2/)
- LingPipe (http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html)
Eine erschöpfende Liste von Meta-Guide.com finden http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
Noteworthy Sprache Identification Aufgabe geteilt related (mit Ausbildung/Testdaten) enthält:
Schauen Sie auch an:
- Language Identification: The Long and the Short of the Matter
- The Problems of Language Identification within Hugely Multilingual Data Sets
- Selecting and Weighting N-Grams to Identify 1100 Languages
- Indigenous Tweets
- Microblog Language Identification: Overcoming the Limitations of Short, Unedited and Idiomatic Text
Diese Liste ist sehr beeindruckend! Vielen Dank! –
Sie könnten interessiert sein an [Der WiLI-Benchmark-Datensatz für schriftliche Sprachidentifikation] (https://arxiv.org/abs/1801.07779) Papier. –