Ich habe ein Projekt, in dem ich Dokumente mit mehreren Kapiteln mit einem zweiten Dokument vergleichen muss, um deren Ähnlichkeit festzustellen. Das Problem ist, dass ich keine Ahnung habe, wie ich das machen soll, welche Ansätze existieren oder ob es Bibliotheken gibt.Textanalyse von großen Dokumenten
Meine erste Frage ist ... was ist ähnlich? Die Anzahl der Wörter, die übereinstimmen, die Anzahl der aufeinander folgenden Wörter, die übereinstimmen?
Ich konnte sehen, einen Parser schreiben, der jedes Dokument in ein Array mit dem Wort und der Position und vergleicht sie dann.
sah ich die frühere Frage an Algorithms or libraries for textual analysis, specifically: dominant words, phrases across text, and collection of text
es jedoch etwas anders scheint als das, was ich zu tun versucht.
Alle Optionen oder Hinweise, die Leute haben könnten, wären toll!
Ich würde sagen, der Ansatz ist stark abhängig von der Art des Dokuments (Handbuch, Doktorarbeit, Roman?) – Treb
"Was ist ähnlich" ist die Schlüsselfrage und wird von wer wird Ihre Ergebnisse und zu welchem Zweck verwendet werden . Sie sollten diesen Aspekt näher ausführen. – RBarryYoung
Ein wenig mehr Hintergrund, sorry für die Verwirrung. Wir möchten Dokumente vergleichen, die wir von Leuten erhalten haben, mit einer Bibliothek urheberrechtlich geschützter Dokumente, die aus 100 Seiten bestehen kann. Manchmal wird jedoch Müll eingereicht, und manchmal ist dies gültig. Wir möchten identifizieren können, wo es signifikante Übereinstimmungen gibt. –