2016-04-30 11 views
0

Hallo Grundsätzlich wollten wir KAFKA + SPARK Streaming verwenden, um Twitter Spam auf unsere These zu fangen. Und ich wollte streamingKmeans verwenden. Aber ich habe sehr newbie und ernste Frage:Streaming Kmeans Spark JAVA

In diesem Funken StreamingKmeans scala Beispiel (https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala) gibt es eine Zeile Code für die Vorhersage:

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

Warum ich brauche das „LABEL“ passiert mit Eigenschaften ? Ich meine, verarsche ich die ganze Idee? Wollen wir nicht das "Label" vorhersagen? Wie kann ich meine Tweets vorhersagen, wenn sie Spam sind oder nicht?

Antwort

0

Für die Vorhersage wird nur lp.features verwendet, während lp.label als Schlüssel gilt, der übernommen wird. Zitiert aus der docs:

Verwenden Sie das Modell, um Vorhersagen über den Werten eines DSTREAM und tragen über die Tasten.

ich in Ihrem Beispiel erraten würden Sie einfach predictOnValues von predictOn

+0

Sir Danke zu ersetzen. Ich werde es definitiv versuchen. Übrigens kennst du irgendwelche gitter oder schlaffen Räume, denen ich beitreten kann, um meine Fragen zu stellen? –

+0

Vielen Dank für die Annahme der Antwort. Ich würde keine solchen Räume, aber ich denke, dass SO immer offen gegenüber gut gestellten Fragen ist –