2016-04-29 8 views
0

Ich baue eine kleine vertikale Suchmaschine mit Elasticsearch als Indexer und Nutch als Crawler. Ich benutzte das Titelfeld HTML, um Suchvorschläge für ES zu erstellen, indem ich eine edge n gram Strategie verwendete und dachte, dass das Titelfeld gut wäre, da es relevante Begriffe für den Betreffinhalt der Seite enthalten sollte und den Index hinsichtlich der Suche kleiner halten würde Vorschläge, seien es einzelne Wörter oder Sätze. Bei den bisherigen Tests funktioniert es jedoch nicht wie gedacht ... es gibt einfach nicht so viele Vorschläge.Weitere Vorschläge mit Elasticsearch

Gegenwärtig mache ich nur Tests mit ungefähr 10 Seiten, aber werde schließlich ungefähr 500 oder so erreichen. Ich denke, dass aufgrund des kleinen Datensatzes (10 Seiten, nur auf HTML Titelfeld) wahrscheinlich nicht genügend Begriffe oder Phrasen verfügbar sind, um gute Vorschläge zu machen, zumindest Phrasenvorschläge.

Wäre es ratsam, einfach mehr Seiten zu crawlen, um weitere Vorschläge (Begriffe und Phrasen) mit der Strategie im Titelfeld zu erstellen ODER sollte ich das Inhaltsfeld verwenden (das offensichtlich viel größer als das Titelfeld ist).

Ich versuche, dies zu tun, um mehr Suchvorschläge, insbesondere Phrasenvorschläge zu erhalten, während ich auf die Indexgröße achtet - damit die Leistung nicht leidet. Irgendwelche Ideen?

Antwort

0

In diesen Tagen könnte man sagen, dass Vorschläge sogar wichtiger sind als die Suchergebnisse selbst - was etwas unsinnig ist, ich weiß. Aber die Benutzer neigen dazu zu erwarten, dass es kein Suchergebnis gibt, wenn es keinen Vorschlag gibt. Stellen Sie daher sicher, dass jedes durchsuchbare Feld in Ihren Vorschlägen, insbesondere in Ihren Inhalten, richtig wiedergegeben wird. Und "später optimieren"! Schau nicht zu früh auf deine Leistung. 500 Seiten klingen nicht so, als würden Sie trotzdem viele Dokumente zum Index bekommen. Welche Art von Hardware verwenden Sie?

+0

für die Entwicklung, nur meine lokale Ubuntu-Maschine, aber wenn dev gemacht wird, plane ich, aws zu verwenden. – user3125823

+0

Ich stimme Ihnen zu, dass Vorschläge wahrscheinlich ein wenig wichtiger sind als die Ergebnisse, zumindest anfangs. Was Sie sagen, macht Sinn, besser zuerst Vorschläge zu machen, sich später um die Leistung zu sorgen – user3125823