2012-03-24 12 views
9

Ich kenne die folgenden Open-Source-Tools, aber ich habe keine Vergleiche gefunden, wie gut sie jeweils sind. Werkzeuge mit fertigen Ausdruck Extraktion verwenden:Welches Phrasenextrahierungswerkzeug ist jetzt der Stand der Technik?

  • KEA
  • MAUI (http://code.google.com/p/maui-indexer/)
  • Dragon Xtract (http: // Drachen .ischool.drexel.edu/xtract.asp)
  • LingPipe (http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html)
  • Mahout (https: // cwiki .apache.org/MAHOUT/collocations.html)
  • Alles andere

Hat jemand jemals einen solchen Vergleich gesehen?

+0

mit "Phrase Extraktion", tun Sie "Satz-Splitting" oder "Satz tokenization" bedeuten? – Renaud

Antwort

0

Ich mag Mallet, weil es ein Kommandozeilen-Tool hat, das wirklich einfach zu bedienen ist

+0

Wie können Sie Sätze mit Mallet extrahieren? d. h. es gibt Thema Modellierung = Clustering, aber wie ich weiß, gibt es keine Schlüsselwort Extraktion aus großen – yura

+0

Sie haben Recht, Entschuldigung, ich dachte Thema Mödling –

4

MAUI KEA auf meinen Experimenten übertrifft. Es gibt einen Vergleich auf nicht überwachte automatische Schlüsselphrase Extraktionsmethoden (Coling 2010 Papier). Aber sie analysieren keine überwachten Methoden, ich plane das in naher Zukunft.

Darüber hinaus habe ich auch eine umfangreichere Reihe von Funktionen erkundet, die die Leistung der automatischen Key Phrase Extraction verbessert, die noch lange nicht perfekt ist. Ich könnte die erweiterte Version von MAUI mit diesen Erweiterungen nächstes Jahr veröffentlichen.

Bitte lesen Sie die folgenden Papiere oder mailen Sie mir weitere Informationen:

Supervised Topical Key Phrase Extraction of News Stories using Crowdsourcing, Light Filtering and Co-reference Normalization

Keyphrase Cloud Generation of Broadcast News