Das Problem ist wie folgt:Feststellen, ob zwei oder mehr Zusammenfassungen ähnlich sind
ich eine Zusammenfassung, in der Regel zwischen 20 bis 50 Worten, dass ich zu einem anderen relativ ähnlichen Zusammenfassungen vergleichen möchte. Die allgemeine Kategorie und der geografische Standort, auf den sich die Zusammenfassung bezieht, sind bereits bekannt. Wenn zum Beispiel Leute aus der gleichen Gegend über den Bau eines Hauses schreiben, würde ich gerne in der Lage sein, diese Zusammenfassungen mit einiger Sicherheit aufzulisten, dass sie sich tatsächlich auf den Bau von Häusern beziehen, anstatt eine Garage oder ein Gebäude zu bauen Hinterhof Schwimmbad.
Der Datensatz umfasst derzeit etwa 50.000 Dokumente mit einer Wachstumsrate von etwa 200 Dokumenten pro Tag.
Bevorzugte Sprachen wären Python, PHP, C/C++, Haskell oder Erlang, je nachdem, welche Aufgabe erledigt werden könnte. Wenn es Ihnen nichts ausmacht, würde ich gerne die Gründe für die Auswahl einer bestimmten Sprache verstehen.
Wie Sie wahrscheinlich erraten, meine Daten ist meistens auf Finnisch, daher könnte sich dies als sehr relevant erweisen. Ich muss morgen nachdenken. –