2013-05-10 9 views
5

i die IRStatisticsImpl Daten lesen möchten, haben aber einige Probleme zu interpretieren:wie IRStatisticsImpl Daten in Mahout

mein Ergebnis ist:

IRStatisticsImpl[precision:0.04285714285714287,recall:0.04275534441805227,fallOut:0.0018668022652391654,nDCG:0.04447353132522083,reach:0.997624703087886] 

ist gemeint, dass ich nur 4% der guten Empfehlungen bekam (Präzision) und ungefähr das gleiche Niveau der schlechten Empfehlung (Rückruf)?

Wie sollten die Zahlen im besten Fall aussehen - Genauigkeit bei 1,0 und Rückruf bei 0,0?

Antwort

2

Nun, per Definition:

Precision stellt dar, wie viele Ergebnisse korrekt sind in der Ergebnismenge. Recall stellt die Wahrscheinlichkeit dar, dass ein korrektes Element in einem Testsatz als korrekt ausgewählt und in einer Ergebnismenge ausgewählt werden muss.

Zu sein perfekt Präzision und Rückruf sollte bei 100% sein. Gute Ergebnisse und Kriterien zu diesen Werten müssen entsprechend Ihrer Domain ausgewertet werden.

Zum Beispiel, wenn Sie einen Eimer mit guten und schlechten Pilzen haben, sollten Sie auf 100% für Präzision zielen, egal wie niedrig ist Ihr Rückruf. Weil Präzision für Ihre Gesundheit entscheidend ist, können Sie sogar viele gute Pilze hinterlassen. Die wichtige Sache ist nicht essen die hässlichen. Sie können einen guten Pilz auswählen und so erhalten Sie 100% Präzision, aber wenn es vier gute Pilze in Ihrem Eimer gibt, ist Ihr Rückruf 25%. Im Idealfall, wenn Präzision und Recall 100% sind, bedeutet dies, dass in Ihrem Ergebnis alle Pilze gut sind und auch alle guten Pilze sind in Ihrem Ergebnissatz und keiner ist in Ihrem Testsatz leaved.

So können Werte unterschiedliche Bedeutungen haben.

Leider scheinen Ihre Ergebnisse sehr hässlich, weil Sie viele falsche Positive und zu viele falsche Negative haben.

Werfen Sie einen Blick here.

+0

können Sie mir sagen, wie die Zahlen für 'fallOut' und' nDCG' aussehen sollen? sollen sie 1,0 oder 0,0 sein? – ulkas

+0

per definitionem FallOut ist "Der Anteil der nicht relevanten Dokumente, die aus allen nicht relevanten Dokumenten abgerufen werden:" http://en.wikipedia.org/wiki/Information_retrieval#Fall-out Soweit ich weiß, Es sollte so niedrig wie möglich sein, aber es ist auch trivial, 0% zu erhalten, damit Sie Ihre Domain bewerten können. – gpicchiarelli

+0

über nDCG, es ist eine normalisierte Version von DCG, die "Discounted Kumulative Gain" bedeutet. Um genau zu sein, schaue hier http://en.wikipedia.org/wiki/Discounted_cumulative_gain – gpicchiarelli