ich einen Spark-Datenrahmen haben, die wie folgt aussieht:Trans
+-----------+-------------------+
| ID | features |
+-----------+-------------------+
| 18156431|(5,[0,1,4],[1,1,1])|
| 20260831|(5,[0,4,5],[2,1,1])|
| 91859831|(5,[0,1],[1,3]) |
| 206186631|(5,[3,4,5],[1,5]) |
| 223134831|(5,[2,3,5],[1,1,1])|
+-----------+-------------------+
die Funktionen Spalte In diesem Datenrahmen ist ein spärlich Vektor. In meinen Skripten muss ich diesen DF als Datei auf der Festplatte speichern. Wenn Sie dies tun, wird die Feature-Spalte als Textspalte gespeichert: Beispiel "(5,[0,1,4],[1,1,1])"
. Wenn Sie erneut in Spark importieren, bleibt die Spalte wie erwartet erhalten. Wie kann ich die Spalte wieder in das (spärliche) Vektorformat konvertieren?
Welche Version von Spark? Welche Vektorklasse möchten Sie erhalten ('ML' /' MLib')? Wie liest du diese Daten? – zero323
Spark-Version = 1.6.2. Vorzugsweise ein ML-Vektor (aber Sie können für beide erklären). Ich verwende den folgenden Code zum Lesen der Daten: 'DF = sqlContext.read.format ('com.databricks.spark.csv'). Options (header = 'true', inferschema = 'true', delimiter = Begrenzer) .load ('file: //' + path) .drop ('') ' – Stijn
Es gibt keinen ML Vektor in 1.6, damit es einfacher wird :) – zero323