2016-07-20 22 views
0

Ich habe an einem Projekt gearbeitet, das mich fragt, Schlüsselwort-/Schlüsselsatzvorschlag basierend auf Beschreibung des Produktes zu geben.Schlüsselwortvorschlag Algorithmus

Was ich gerade habe: Beschreibung des Produkts, Produktkategorie (Mai oder nicht vorhanden).

Was ich will: Maschinengenerierte Schlüsselwörter/Schlüsselphrasen basierend auf Beschreibung.

Welche Untersuchungen habe ich durchgeführt: (NLP-basierter Ansatz) Dieses Problem kann in zwei getrennte Ansätze unterteilt werden.

  • Nicht die Vergangenheit Daten mit: Just einer Zusammenfassung der aktuellen Beschreibung
  • Methode: - Tokenisierung, ergeben, Stoppwörter Entfernung usw. (Preprocessing)
  • Shallow NLP (Constituency Parsing) und behalten nur & NP JJ Sätze .

Dies wäre ein Ansatz, der keine in der Datenbank vorhandene Beschreibung verwendet.

Was ich suchte, ist ein besserer Ansatz, der ML-Algorithmen verwendet und auch meine früheren Produktbeschreibungsdaten verwendet.

Ich habe darüber nachgedacht, flaches Parsing auf den gesamten Datensatz anzuwenden und dann Schlüsselwörter zu geben, die in mehr als N Produkten zusammentreffen.

Welcher Algorithmus oder Ansatz würde sich als nützlich erweisen? Wie kann ich meine Daten verwenden?

+0

Haben Sie eine große Auswahl an Produkten mit bereits vorhandenen Schlüsselwörtern, die Sie zum Lernen verwenden können? –

+0

Ja, ich habe Keywords in Bezug auf "einige" der Produktbeschreibungen. –

Antwort

0

Versuchen auf Basismodelle aussehen: Begriff Frequenz oder TF-IDF, Sie Dies geben einige wichtige Worte: https://en.wikipedia.org/wiki/Tf%E2%80%93idf, dann für Text-Clustering (Für Cluster-Text-Gruppe, die miteinander verbunden sind) suchen und Themensuche nähert sich (dies kann man prominent Wörter und Thema zu einem Dokument im Zusammenhang finden helfen)

Dann können Sie Schlüsselwort für jeden Cluster finden (können Sie auch Kategorien von Dokumenten betrachten), und versuchen, so viele relevante Wörter zu finden, ein anderes Wort

Ich schlage vor, lesen Sie einige/oder w loch kapitel dieses buches: http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf

+0

Kann ich Dokument (Beschreibung) Ähnlichkeit (die im Grunde auf TF-IDF basiert) tun? Und dann Stichworte vorschlagen, die in den meisten Dokumenten aus einer Liste ähnlicher Dokumente gefunden werden? –