Ich habe ein Buch Seite, wie diese aussieht:Clustering Elemente in einer Buchseite
nun für jedes Wort, weiß, dass ich die Position des umschließenden Rechtecks.
Ich habe versucht, K-Mittel von sklearn.cluster zu verwenden, um die Absätze in der Seite zu erhalten, wie folgt aus:
Aber die Algorithmen nicht in den Absätzen zu erhalten und die wichtigsten Probleme ist dass K-Means es mir nicht erlaubt, dem Clustering Beschränkungen hinzuzufügen.
Können Sie mir mit einer Idee helfen, wie Sie die Absätze, Titel, von dieser Seite bekommen, wenn ich bedenke, dass ich die Position der Wörter, die Schriftart und die Größe kenne?