Mein System generiert Fragen aus einer Menge von Sätzen. Kann abhängig von der Qualität des Satzes mehrere Fragen für einen einzelnen Satz erzeugen. Menschen erhalten auch die gleichen Sätze von Sätzen, um Fragen zu generieren.Wie berechnet man Präzision und Abruf für ein System, das Fragen generiert?
Zum Beispiel:
Satz: Die Hauptstadt von Russland ist Moskau.
============ # Systemgenerierte Fragen # =============
Frage 1: Was ist die Hauptstadt von Russland ist?
Frage 2: Was ist Moskau?
============ # Menschen verursachten Fragen # =============
Frage 1: Was ist die Hauptstadt von Russland?
Frage 2: Was ist Moskau?
Frage 3: Ist die Hauptstadt Russlands Moskau?
Ich möchte die Präzision, den Rückruf und die Genauigkeit meines Systems bewerten. Aber ich weiß nicht, wie man solche Maßnahmen für den Fall der Fragegenerierung berechnen soll.
Daten
- Kommentierte Satz von systemgenerierten Fragen (Acceptable, Inakzeptable)
- Menschengenerierte Fragen (für die gleiche Menge von Sätzen)
diese Daten gegeben, Wie Ich berechne diese Maßnahmen?
Enthält der mit Anmerkungen versehene Satz systemgenerierter Fragen alle möglichen Fragen? – gudok
Das System generiert Fragen für bestimmte WH-Wörter. Es folgt die folgende Strategie: Finden Sie _answers_ in den Sätzen und generieren Sie _question_ für jede _answer_. – dryleaf
Können Sie annehmen, dass die menschlich generierten Fragen * alle * möglichen Fragen für diesen Satz enthalten? – NBartley