Ich baue eine kleine vertikale Suchmaschine mit Elasticsearch als Indexer und Nutch als Crawler. Ich benutzte das Titelfeld HTML
, um Suchvorschläge für ES zu erstellen, indem ich eine edge n gram
Strategie verwendete und dachte, dass das Titelfeld gut wäre, da es relevante Begriffe für den Betreffinhalt der Seite enthalten sollte und den Index hinsichtlich der Suche kleiner halten würde Vorschläge, seien es einzelne Wörter oder Sätze. Bei den bisherigen Tests funktioniert es jedoch nicht wie gedacht ... es gibt einfach nicht so viele Vorschläge.Weitere Vorschläge mit Elasticsearch
Gegenwärtig mache ich nur Tests mit ungefähr 10 Seiten, aber werde schließlich ungefähr 500 oder so erreichen. Ich denke, dass aufgrund des kleinen Datensatzes (10 Seiten, nur auf HTML
Titelfeld) wahrscheinlich nicht genügend Begriffe oder Phrasen verfügbar sind, um gute Vorschläge zu machen, zumindest Phrasenvorschläge.
Wäre es ratsam, einfach mehr Seiten zu crawlen, um weitere Vorschläge (Begriffe und Phrasen) mit der Strategie im Titelfeld zu erstellen ODER sollte ich das Inhaltsfeld verwenden (das offensichtlich viel größer als das Titelfeld ist).
Ich versuche, dies zu tun, um mehr Suchvorschläge, insbesondere Phrasenvorschläge zu erhalten, während ich auf die Indexgröße achtet - damit die Leistung nicht leidet. Irgendwelche Ideen?
für die Entwicklung, nur meine lokale Ubuntu-Maschine, aber wenn dev gemacht wird, plane ich, aws zu verwenden. – user3125823
Ich stimme Ihnen zu, dass Vorschläge wahrscheinlich ein wenig wichtiger sind als die Ergebnisse, zumindest anfangs. Was Sie sagen, macht Sinn, besser zuerst Vorschläge zu machen, sich später um die Leistung zu sorgen – user3125823