2016-05-02 8 views
-1

Ich habe ein Buch Seite, wie diese aussieht:Clustering Elemente in einer Buchseite

enter image description here

nun für jedes Wort, weiß, dass ich die Position des umschließenden Rechtecks.

Ich habe versucht, K-Mittel von sklearn.cluster zu verwenden, um die Absätze in der Seite zu erhalten, wie folgt aus:

enter image description here

Aber die Algorithmen nicht in den Absätzen zu erhalten und die wichtigsten Probleme ist dass K-Means es mir nicht erlaubt, dem Clustering Beschränkungen hinzuzufügen.

Können Sie mir mit einer Idee helfen, wie Sie die Absätze, Titel, von dieser Seite bekommen, wenn ich bedenke, dass ich die Position der Wörter, die Schriftart und die Größe kenne?

Antwort

1

K-means funktioniert gut, wenn Cluster die gleiche Größe haben. Insbesondere nimmt es an, Cluster werden am besten durch die Mittelwert dargestellt und können auf halbem Wege zwischen zwei Mittel geteilt werden. Zu guter Letzt geht es davon aus, dass Sie k vorher wissen.

Diese Annahmen halten Ihre Daten nicht fest. Angenommen, Sie haben Absätze der Länge 10 Zeilen, 2 Zeilen, 10 Zeilen, dann enthält der mittlere "Cluster" einige Zeilen der benachbarten Cluster.

Verwenden Sie keinen Out-of-the-Box-Ansatz, sondern entwerfen Sie einen optimierten Algorithmus für Ihr Problem. Z.B. in kurzen Zeilen aufgeteilt.

Auch "Segmentierung" wird ein geeigneterer Suchbegriff sein als "Clustering".