Ich habe 100 GB Dokumente. Ich möchte es charakterisieren und einen Überblick darüber bekommen, welche Themen vorherrschen.Wie visualisiere ich einen großen Dokumentensatz?
Die Dokumente sind Klartext.
Ich habe überlegt, ein Tool wie Google Desktop zu verwenden, aber es ist zu groß, um wirklich zu erraten, wonach gesucht werden soll und zu zeitaufwendig, um genügend Suchen durchzuführen, um den gesamten Satz abzudecken.
Gibt es frei verfügbare Werkzeuge, die einen großen Datensatz von Dokumenten zusammenfassen?
Gibt es solche Tools, die solche Cluster visualisieren können?
welche Art von Dokument? ein strukturiertes Dokument? einfacher Text? – Pierre
Eigentlich, sollte es wirklich welche Art von Bedeutung? Jeder Dokumententyp kann mit einem geeigneten Filter in Text konvertiert werden, basierend auf einer einfachen Dateitypüberprüfung. – viksit