2016-03-24 41 views
0

Wenn ich importiert die gespeicherten folgende Daten als UTF-8 Encoded TxtImport txt-Datei in R Studio enthält unerwünschte BOM Zeichen „ï» ¿“

1 test1 
1 test2 
2 test1 
2 test3 

In R-Studio-Datei hatte ich Probleme mit der BOM Zeichen "ï» ¿"erscheinen in der resultierenden Tabelle. Unten ist der Code, mit dem ich die Daten importiert habe.

library(arules) 
library(arulesViz) 

txn <- read.transactions("r-test.txt",rm.duplicates= FALSE,format="single",sep="\t",cols = c(1,2)) 
inspect(txn) 

Die resultierende Import sah wie folgt aus:

items   transactionID 
1 {test2}  1    
2 {test1,test3} 2    
3 {test1}  1 

Antwort

0

Was ich festgestellt, dass die Datei als ANSI codiert txt-Datei das Problem dadurch geklärt durch Speichern.

items   transactionID 
1 {test1,test2} 1    
2 {test1,test3} 2 

Sie können den folgenden r Studio-Code verwenden, um Ihre Datei in ANSI-Format zu konvertieren:

writeLines(iconv(readLines("Old File Name"), from = "UTF8", to = "ANSI_X3.4-1986"), 
      file("New File Name", encoding="ANSI_X3.4-1986")) 

hoffte, das hilft jemand anderes, wenn sie das gleiche Problem haben.

0

read.transactions hat auch ein Codierungsargument. Versuchen Sie, es auf "UTF8"

read.transactions(file, format = c("basket", "single"), sep = "", 
       cols = NULL, rm.duplicates = FALSE, 
       quote = "\"'", skip = 0, 
       encoding = "unknown") 
+0

Hallo Michael, habe ich tatsächlich versucht, die Codierung mit UTF8 sowie UTF8 mit BOM. Beide haben das Problem jedoch nicht behoben. Vielen Dank für die Antwort und lassen Sie mich wissen, ob die Codierung für Sie funktioniert. – TsTeaTime

+1

Sieht so aus, als müsste ich die Codierung hinzufügen, um in read.transactions zu scannen. Ich werde das in der Entwicklerversion von arules auf github versuchen. Nicht ganz sicher, ob das das Problem löst. –

+0

Danke, das sollte perfekt funktionieren. Ich werde es versuchen, sobald es hinzugefügt wurde. – TsTeaTime