2009-04-13 7 views
4

Die deutsche Website nandoo.net bietet die Möglichkeit, einen Nachrichtenartikel zu kürzen. Wenn Sie den Prozentwert mit einem Schieberegler ändern, ändert sich der Text und einige Sätze werden weggelassen.Kürzen Sie einen Text und behalten Sie nur wichtige Sätze

Sie können das hier in Aktion sehen:

http://www.nandoo.net/read/article/299925/

Die Meldung ist auf der linken Seite und Tags markiert sind. Der Schieberegler befindet sich oben in der zweiten Spalte. Je mehr Sie den Schieberegler nach links bewegen, desto kürzer wird der Text.

Wie können Sie so etwas anbieten? Gibt es Algorithmen, mit denen Sie das erreichen können?

Meine Idee war, dass ihr Algorithmus die Anzahl der Tags und Substantive in einem Satz zählt. Dann werden die Sätze mit der geringsten Anzahl von Tags/Substantiven weggelassen.

Konnte das wahr sein? Oder hast du eine andere Idee?

Ich hoffe, Sie können mir helfen. Danke im Voraus!

Antwort

2

Normalerweise möchten Sie die Sätze beibehalten, die Wörter haben, die für diesen Artikel eindeutiger sind.

Das heißt, je "generischer" der Satz ist, desto weniger beschreibt es diesen bestimmten Artikel.

Der normale Weg dazu ist Bayessche Analyse ähnlich wie ein Spam-Filter. Stellen Sie zunächst fest, welche Wörter im gesamten Artikel häufiger vorkommen als erwartet, und suchen Sie dann nach den Sätzen, die diese Wörter enthalten.

+0

Vielen Dank! Dann müssen Sie nur die Anzahl der Vorkommen aller Wörter in Ihrer Datenbank speichern. Das ist kein Problem. Aber warum brauchen Sie eine Bayessche Analyse? Sie können den Text durchgehen, die Häufigkeit der Wörter auswählen und sie für jeden Satz zählen. Recht? – caw

+1

Sie sollten keine reinen Zählungen verwenden, da Wörter, die von Natur aus häufiger vorkommen, * erwartet * hohe Zählraten haben, während Sie nach Wörtern suchen, bei denen die Zählungen hoch * relativ * zu erwartet sind. Die Bayessche Analyse macht genau das. –

+0

Thx! Also wähle ich die durchschnittliche Anzahl der Vorkommen der Wörter aus der Datenbank. Dann bestimme ich, welche Wörter in diesem Text häufiger vorkommen als im Durchschnitt. Zumindest wähle ich die Sätze aus, die diese unerwartet häufigen Wörter enthalten.Recht? – caw

3

Dies ist ein heißes Forschungsthema in der Computerlinguistik. Der seichte Ansatz mit Bayesian Filtering wird wahrscheinlich keine perfekten Ergebnisse liefern - aber Sie brauchen wahrscheinlich keine perfekten Ergebnisse.

In CL wird die 80-20-Regel schnell zur 95-5-Regel. Wenn Sie also mit dem zufrieden sind, was Sie mit seichten Methoden erreichen können, überspringen Sie diese Antwort.

Wenn Sie sehen möchten, ob Sie Ihre Ergebnisse verbessern können, könnten Sie versuchen, einige bessere Ressourcen zu finden. Die Aufgabe, auf die Sie sich beziehen, wird in der Forschungsgemeinschaft als "Textzusammenfassung" bezeichnet und hat seine eigene web page, die hoffnungslos veraltet ist. Mani and Maybury (1999) ist wahrscheinlich ein guter Überblick (ich habe es selbst nicht gelesen,) aber auch ziemlich antiquiert. Neueren Datums ist Martin Hassels dissertation zu dem Thema, und auch ziemlich erschöpfend, einschließlich sprachunabhängig (lesen: statistische, d. H. Flach) Methoden.

Wie immer kann Google Ihnen auch helfen. Suchen Sie einfach nach text summarization.

+0

Danke, also weiß ich, was zu tun ist, wenn Bayesian Filtering unzulängliche Resultate gibt. – caw