Ich arbeite an einem Klassifizierungsproblem, in dem ich MLLIB-Bibliothek verwenden muss. Die Klassifizierungsalgorithmen (sagen wir logistische Regression) in mllib erfordern eine RDD [LabeledPoint]. Ein LabeledPoint hat nur zwei Felder, ein Label und einen Feature-Vektor. Wenn ich das Scoring durchführe (indem ich mein trainiertes Modell auf das Testset anwende), haben meine Testinstanzen ein paar andere Felder, die ich behalten möchte. Zum Beispiel sieht eine Testinstanz wie folgt aus: <id, field1, field2, label, features>
. Wenn ich eine RDD von LabeledPoint erstelle, sind alle anderen Felder (id, field1 und field2) weg und ich kann die Beziehung zwischen meiner bewerteten Instanz und der ursprünglichen nicht herstellen. Wie kann ich dieses Problem lösen? Nach dem Scoring muss ich die IDs und den Score/Predicted Label kennen., wie Datensätze Informationen beim Arbeiten in Mllib
Dieses Problem existiert nicht in ML, da es DataFrame verwendet, und ich kann einfach eine andere Spalte mit der Punktzahl zu meinem ursprünglichen Datenrahmen hinzufügen.