it-swarm.com.de

Bewertung der Textzusammenfassung - BLEU vs. ROUGE

Mit den Ergebnissen zweier verschiedener Zusammenfassungssysteme (sys1 und sys2) und denselben Referenzzusammenfassungen habe ich sie sowohl mit BLEU als auch mit ROUGE ausgewertet. Das Problem ist: Alle ROUGE-Scores von sys1 waren höher als sys2 (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4, ROUGE-L, ROUGE-SU4, ...), aber der BLEU-Score von sys1 war geringer als der BLEU-Score von sys2 (ziemlich viel).

Meine Frage ist also: Sowohl ROUGE als auch BLEU basieren auf N-Gramm, um die Ähnlichkeit zwischen den Zusammenfassungen von Systemen und den Zusammenfassungen von Menschen zu messen. Warum gibt es also Unterschiede bei den Ergebnissen dieser Bewertung? Und was ist der Hauptunterschied zwischen ROUGE und BLEU, um dieses Problem zu erklären?

Alle Ratschläge und Vorschläge werden sehr geschätzt! Vielen Dank!

16
Chelsea_cole

Im Algemeinen:

Bleu misst die Genauigkeit: Wie viel Wörter (und/oder N-Gramme) in den maschinengenerierten Zusammenfassungen in den menschlichen Referenzzusammenfassungen enthalten sind.

Rouge-Maßnahmen erinnern an: Wie viel Wörter (und/oder N-Gramm) in den Human Reference Summaries in der Maschine erschienen sind, generiert Zusammenfassungen.

Natürlich - diese Ergebnisse ergänzen sich, wie dies häufig bei der Genauigkeit gegenüber der Erinnerung der Fall ist. Wenn Sie viele Wörter aus den Systemergebnissen in den menschlichen Referenzen haben, haben Sie einen hohen Bleu, und wenn Sie viele Wörter aus den menschlichen Referenzen in den Systemergebnissen haben, haben Sie hohe Rouge-Werte.

In Ihrem Fall scheint sys1 einen höheren Rouge-Wert als sys2 zu haben, da die Ergebnisse in sys1 immer mehr Wörter aus den menschlichen Referenzen enthielten als die Ergebnisse von sys2. Da Ihre Bleu-Bewertung jedoch zeigt, dass sys1 einen geringeren Rückruf als sys2 aufweist, deutet dies darauf hin, dass nicht so viele Wörter aus Ihren sys1-Ergebnissen in Bezug auf sys2 in den menschlichen Referenzen auftauchten.

Dies kann zum Beispiel der Fall sein, wenn Ihr sys1 Ergebnisse ausgibt, die Wörter aus den Referenzen enthalten (wie beim Rouge), aber auch viele Wörter, die nicht in den Referenzen enthalten sind (Absenken des Bleu). Wie es scheint, liefert sys2 Ergebnisse, für die die meisten ausgegebenen Wörter in den menschlichen Bezügen erscheinen (das Blau aufsteigen), aber es fehlen auch viele Wörter aus den Ergebnissen, die in den menschlichen Bezügen erscheinen.

Übrigens, es gibt etwas namens Kürze Strafe, was ziemlich wichtig ist und bereits zu den Standard-Implementierungen von Bleu hinzugefügt wurde. Es bestraft Systemergebnisse, die kürzer als die allgemeine Länge einer Referenz sind (lesen Sie mehr darüber hier ). Dies ergänzt das n-Gramm-Metrikverhalten, das tatsächlich länger als Referenzergebnisse benachteiligt, da der Nenner umso länger wird, je länger das Systemergebnis ist.

Sie könnten auch etwas Ähnliches für Rouge implementieren, aber diesmal führt das System zu einer Bestrafung, die länger als die allgemeine Referenzlänge ist, was sie sonst dazu befähigen würde, künstlich höhere Rouge-Werte zu erzielen (je länger das Ergebnis, desto höher die Chance, dass Sie ein Wort treffen, das in den Referenzen erscheint). In Rouge teilen wir uns durch die Länge der menschlichen Bezüge, so dass wir für längere Systemergebnisse eine zusätzliche Strafe benötigen würden, die ihren Rouge-Score künstlich erhöhen könnte.

Schließlich können Sie mit der F1-Messung die Metriken zusammenarbeiten lassen: F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

19
eiTan LaVi

Sowohl ROUGE als auch BLEU basieren auf N-Gramm, um die Ähnlichkeit zwischen den Zusammenfassungen von Systemen und den Zusammenfassungen von Menschen zu messen. Warum gibt es also Unterschiede bei den Ergebnissen dieser Bewertung? Und was ist der Hauptunterschied zwischen ROUGE und BLEU, um dieses Problem zu erklären?

Es gibt sowohl die ROUGE-n-Genauigkeit als auch die ROUGE-n-Genauigkeitsaufforderung. Die ursprüngliche ROUGE-Implementierung aus dem Dokument, in dem ROUGE {3} eingeführt wurde, berechnet beide Werte sowie den daraus resultierenden F1-Score.

Von http://text-analytics101.rxnlp.com/2017/01/wie-zuarbeiten-für-auswertung-von.html ( mirror ):

ROUGE Rückruf:

 enter image description here

ROUGE Präzision:

 enter image description here

(Die ursprüngliche ROUGE-Implementierung aus dem Dokument, in der ROUGE {1} eingeführt wurde, kann einige weitere Aktionen ausführen, z. B. das Stemming.)

Die Genauigkeit und der Rückruf von ROUGE-n sind im Gegensatz zu BLEU leicht zu interpretieren (siehe Interpretieren von ROUGE-Scores ).

Der Unterschied zwischen der ROUGE-n-Genauigkeit und BLEU besteht darin, dass BLEU einen Kürze-Strafen-Begriff einführt und die N-Gramm-Übereinstimmung für mehrere Größen von N-Gramm berechnet (im Gegensatz zu ROUGE-N, wo nur ein N-Gramm ausgewählt wird Größe). Stack Overflow unterstützt LaTeX nicht, so dass ich nicht mehr Formeln zum Vergleich mit BLEU verwenden werde. {2} erklärt BLEU eindeutig.


Verweise:

1