Angenommen, ich Daten haben, die das folgende Format hat:One Hot Encoding aus mehreren Zeilen in R
ID VALUE
a a
a b
d b
d c
Was würde ich ein One-hot-Codierung für die ID-Wert zu tun. Wenn ich model.matrix
verwenden, erhalte ich:
model.matrix(~VALUE-1, df)
ID aVALUE bVALUE cVALUE
a 1 0 0
a 0 1 0
d 0 1 0
d 0 0 1
Was Ich mag würde jedoch bekommen ist dies:
ID aVALUE bVALUE cVALUE
a 1 1 0
d 0 1 1
Der andere Teil dazu ist, dass mein Datenrahmen rund 30 Millionen Zeilen ist - so ich bin auf der Suche nach einem effizienten Weg, dies zu tun. Jede Hilfe oder Kommentare würden sehr geschätzt werden!
Vielen Dank!
@Jota - das funktioniert tatsächlich! Vielen Dank! – RDizzl3
Wenn du es als Antwort posten willst, nehme ich es gerne an - @Jota – RDizzl3