2016-06-27 18 views
8

Mit den Ergebnissen von zwei verschiedenen Zusammenfassungssystemen (sys1 und sys2) und den gleichen Referenzzusammenfassungen habe ich sie sowohl mit BLEU als auch mit ROUGE ausgewertet. Das Problem ist: Alle ROUGE-Werte von sys1 waren höher als sys2 (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4, ROUGE-L, ROUGE-SU4, ...), aber der BLEU-Score von sys1 war geringer als der BLEU-Score von sys2 (ziemlich).Auswertung der Textverdichtung - BLEU vs ROUGE

Also meine Frage ist: Sowohl ROUGE und BLEU basieren auf N-Gram, um die Ähnlichkeiten zwischen den Zusammenfassungen von Systemen und den Zusammenfassungen von Menschen zu messen. Warum gibt es also Unterschiede in den Bewertungsergebnissen? Und was ist der Unterschied zwischen ROUGE und BLEU, um dieses Problem zu erklären?

Alle Ratschläge und Vorschläge werden sehr geschätzt! Vielen Dank!

Antwort

12

Allgemein gilt:

Bleu misst Präzision: wie viel die Worte (und/oder n-Gramm) in den Maschine erzeugten Zusammenfassungen in den menschlichen Referenz Zusammenfassungen erschienen.

Rouge Maßnahmen erinnern: wie viel die Worte (und/oder n-Gramm) in den menschlichen Referenz Zusammenfassungen in der Maschine erzeugten Zusammenfassungen erschienen.

Natürlich - diese Ergebnisse ergänzen sich, wie es oft bei Präzision vs Rückruf der Fall ist. Wenn Sie viele Wörter aus den Systemergebnissen in den menschlichen Referenzen sehen, haben Sie hohe Bleu, und wenn Sie viele Wörter aus den menschlichen Referenzen in den Systemergebnissen haben, werden Sie hohe Rouge haben.

In Ihrem Fall scheint sys1 ein höheres Rouge als sys2 zu haben, da die Ergebnisse in sys1 konsistent mehr Wörter aus den menschlichen Referenzen enthielten als die Ergebnisse von sys2. Da Ihr Bleu-Score jedoch gezeigt hat, dass sys1 einen niedrigeren Rückruf als sys2 hat, würde dies darauf hindeuten, dass nicht so viele Wörter aus Ihren sys1-Ergebnissen in den menschlichen Referenzen in Bezug auf sys2 auftauchten.

Dies kann beispielsweise passieren, wenn Ihr sys1 Ergebnisse ausgibt, die Wörter aus den Referenzen enthalten (das Rouge hochsetzen), aber auch viele Wörter, die die Referenzen nicht enthalten (das Bleu absenken). sys2 scheint, wie es scheint, Ergebnisse zu liefern, für die die meisten ausgegebenen Wörter in den menschlichen Referenzen erscheinen (das Blau verbessern), aber auch viele Wörter aus ihren Ergebnissen fehlen, die in den menschlichen Referenzen erscheinen.

BTW, es gibt etwas namens Kürze Penalty, das ist sehr wichtig und wurde bereits Standard Bleu-Implementierungen hinzugefügt. Es bestraft Systemergebnisse, die kürzer sind als die allgemeine Länge einer Referenz (lesen Sie mehr darüber here). Dies ergänzt das n-grammetrische Verhalten, das in der Tat länger bestraft wird als Referenzresultate, da der Nenner wächst, je länger das Systemergebnis ist.

Sie auch etwas ähnliches für Rouge implementieren könnte, aber dieses Mal System Ergebnisse zu benachteiligen, die länger als die allgemeinen Bezugslänge sind, die sie sonst ermöglichen würden, das Ergebnis künstlich höher Rouge Scores (seit mehr zu erhalten, desto höher die Chance, dass Sie ein Wort treffen würden, das in den Referenzen erscheint). In Rouge teilen wir durch die Länge der menschlichen Referenzen, so dass wir eine zusätzliche Strafe für längere Systemergebnisse benötigen, die ihren Rouge-Score künstlich erhöhen könnten.

Schließlich konnte man die F1 Maßnahme verwenden, um die Metriken zu machen arbeiten zusammen: F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

+0

Sie haben die genaue Antwort auf zwei Fragen geschrieben. Wenn Sie denken, dass einer von ihnen ein Duplikat des anderen ist, sollten Sie sie als solche markieren (und nicht dieselbe Antwort zweimal posten). – Jaap

+1

Die Antworten sind nicht genau die gleichen, und die Fragen sind nicht genau die gleichen .. Es ist richtig, dass eine der Antworten die andere enthält, aber ich kann keinen klaren Weg sehen, die beiden Fragen zu konvergieren. –

+0

Die * andere * Antwort sollte dann als dupliziertes Imo markiert werden. – Jaap

1

Sowohl ROUGE und BLEU basieren auf n-gram, um die Ähnlichkeiten zwischen den Zusammenfassungen von Systemen und den Zusammenfassungen von Menschen zu messen. Warum gibt es also Unterschiede in den Bewertungsergebnissen? Und was ist der Unterschied zwischen ROUGE und BLEU, um dieses Problem zu erklären?

Es gibt sowohl die ROUGE-n-Präzision als auch die ROUGE-n-Präzisionsrückruffunktion. Die ursprüngliche ROUGE-Implementierung aus dem Papier, das ROUGE {3} einführte, berechnet sowohl den resultierenden F1-Score als auch den daraus resultierenden F1-Score.

Von http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):

ROUGE Rückruf:

enter image description here

ROUGE Präzision:

enter image description here

(Die ursprüngliche ROUGE Implementierung aus dem Papier, das ROUGE eingeführt { 1} kann einige mo ausführen re Dinge wie Stemming.)

Die ROUGE-n Präzision und Rückruf sind im Gegensatz zu BLEU (siehe Interpreting ROUGE scores) einfach zu interpretieren. Der Unterschied zwischen der ROUGE-n-Genauigkeit und der BLEU besteht darin, dass BLEU einen Kurzzeit-Ausdruck einführt und auch die N-Gramm-Übereinstimmung für mehrere Größen von N-Grammen berechnet (anders als bei der ROUGE-n, wo es nur eine gibt) gewählte N-Gramm-Größe). Stack Overflow unterstützt LaTeX nicht, daher werde ich nicht auf weitere Formeln eingehen, um sie mit BLEU zu vergleichen. {2} erklärt BLEU klar.


Referenzen: