ich habe eine CSV von sowohl text und numerische daten. Ich muss es in Feature-Vektordaten in Spark konvertieren (doppelte Werte). Gibt es eine Möglichkeit, das zu tun?wie mix aus text und numerische daten in feature daten in apache spark
Ich sehe einige z. B. wo jedes Schlüsselwort auf einen doppelten Wert zugeordnet ist und verwenden Sie dies zum Konvertieren. Wenn es jedoch mehrere Schlüsselwörter gibt, ist es schwierig, dies zu tun.
Gibt es einen anderen Ausweg? Ich sehe Spark stellt Extraktoren zur Verfügung, die in Feature-Vektoren konvertieren werden. Könnte jemand bitte ein Beispiel geben?
48, Private, 105808, 9th, 5, Widowed, Transport-moving, Unmarried, White, Male, 0, 0, 40, United-States, >50K
42, Private, 169995, Some-college, 10, Married-civ-spouse, Prof-specialty, Husband, White, Male, 0, 0, 45, United-States, <=50K
haben Sie überprüfen [funken csv] (https://github.com/databricks/spark-csv) –
ein Blick auf die StringIndexer Haben (ML ist erlaubt, oder sind Sie streng MLLIB?) http : //spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.feature.StringIndexer – WillemM
Ich bevorzuge MLLIB api wenn –