Ich habe ein dfmSparse-Objekt (groß, mit 2,1 GB), die Token ist und mit Ngrammen (Unigramme, Bigramme, Trigramme und viergrams), und möchte ich konvertieren es zu einem Datenrahmen oder einem Datentabellenobjekt mit den Spalten: Inhalt und Häufigkeit.Convert dfmSparse aus Quanteda-Paket in Data Frame oder Datentabelle in R
Ich habe versucht, aufzulösen ... aber hat nicht funktioniert. Ich bin neu in NLP, und ich weiß nicht mit der Methode zu verwenden, ich bin ohne Ideen und habe keine Lösung hier oder mit Google gefunden.
Einige Informationen über die Daten:
>str(tokfreq)
Formal class 'dfmSparse' [package "quanteda"] with 11 slots
[email protected] settings :List of 1
.. ..$ : NULL
[email protected] weighting : chr "frequency"
[email protected] smooth : num 0
[email protected] ngrams : int [1:4] 1 2 3 4
[email protected] concatenator: chr "_"
[email protected] Dim : int [1:2] 167500 19765478
[email protected] Dimnames :List of 2
.. ..$ docs : chr [1:167500] "character(0).content" "character(0).content" "character(0).content" "character(0).content" ...
.. ..$ features: chr [1:19765478] "add" "lime" "juice" "tequila" ...
[email protected] i : int [1:54488417] 0 75 91 178 247 258 272 327 371 391 ...
[email protected] p : int [1:19765479] 0 3218 3453 4015 4146 4427 4637 140665 140736 142771 ...
[email protected] x : num [1:54488417] 1 1 1 1 5 1 1 1 1 1 ...
[email protected] factors : list()
>summary(tokfreq)
Length Class Mode
3310717565000 dfmSparse S4
Dank!
EDITED: Dies ist, wie ich den Datensatz aus einem Korpus erstellt:
# tokenize
tokenized <- tokenize(x = teste, ngrams = 1:4)
# Creating the dfm
tokfreq <- dfm(x = tokenized)
Ich versuche auch, die Daten mit Aussicht() zu sehen, aber ich bin ein Fehler ist, „zu groß“ –