Ich habe einen großen Feed von Nachrichtenartikeln, die ich indexiere. Ich möchte es vermeiden, viele Artikel, die fast gleich sind, zu indizieren (zum Beispiel können Artikel eines Nachrichtendienstes oft mit leicht unterschiedlichen Datumsformaten erscheinen).Warum haben alle meine ElasticSearch mehr Ähnlichkeit? Diese Treffer haben null Punkte?
Also dachte ich, ich würde eine mehr-wie-diese-Abfrage mit jedem Artikel machen. Wenn ich einen Treffer mit einem Score> Cutoff zurückbekomme, dann ist der Artikel bereits indiziert und ich kümmere mich nicht darum.
Aber wenn ich meine mehr wie diese Abfrage ausführen, kommen alle Treffer, die ich bekomme, mit einer Punktzahl von Null zurück. Ich kann nicht sagen, ob das erwartet wird, ob ich etwas falsch mache oder ob ich einen Fehler entdeckt habe.
Meine Anfrage wie folgt aussieht:
POST _search
{"query":
{"bool":
{"filter": [
{"more_like_this":
{"fields": ["text"],
"like": "Doctor Sentenced In $3.1M Health Care Fraud Scheme Justice Department Documents & Publications \nGreenbelt, Maryland - U.S. District Judge Deborah K. Chasanow sentenced physician [snip]"
}
}
]
}
}
Und die Ergebnisse, die ich zurück sind erhalten:
{
"took": 8,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 390,
"max_score": 0,
"hits": [
[snip]