2016-04-14 15 views
0

Ich arbeite in r, was ich Di erstellen möchte, ist eine Tabelle oder eine Grafik, die für jeden Teilnehmer ihre fehlenden Werte darstellt. d. h. ich habe 4700+ Teilnehmer und für jede Frage gibt es zwischen 20 und 40 Fehlzeiten. Ich möchte die fehlenden so darstellen, dass ich sehen kann, wer die Leute sind, die die Fragen nicht beantwortet haben, und ob es ein Muster in den fehlenden Werten gibt.fehlende Werte für jeden Teilnehmer in der Studie

Graf von kompletten Fälle in einem Datenrahmen

'data' genannt
sum(complete.cases(mydata)) 

Graf von unvollständigen Fällen

sum(!complete.cases(mydata$Variable1)) 

Welche Fälle (Zeilennummern) unvollständig sind: Ich habe das folgende getan?

which(!complete.cases(mydata$Variable1)) 

Ich habe dann eine Liste von Zahlen (die ich nicht ganz sicher bin, wie zu interpretieren anfangs bemerkte ich, ich dachte, das ist die Patientenzahlen waren dann aber, dass dies nicht der Fall ist.)

Ich habe auch versucht, Subsets mit nur den Missings zu machen, aber dann sehe ich nur wie viele Missings es gibt, aber nicht wer die Missings sind.

Kann mir jemand helfen? Vielen Dank!

Zas

+0

Hallo! Machen Sie einen Code reproduzierbar http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example. Geben Sie einige Daten, um einen Punkt in Ihrer Frage zu machen – Mateusz1981

Antwort

1

Wenn es eine Spalte, die eine Zeile in der data.frame unterscheiden kann mydata sagen Patientenzahlen patient_no, dann können Sie leicht die Patientenzahlen von Vermissten durch herauszufinden:

> mydata <- data.frame(patient_no = 1:5, variable1 = c(NA,NA,1,2,3)) 

> mydata[!complete.cases(mydata$variable1),'patient_no'] 

[1] 1 2 

Wenn Sie das Muster betrachten möchten, in dem die Benutzer eine bestimmte Frage verpasst haben, könnte dies für Sie nützlich sein:

Annahme: Außer Spalte 1, alle anderen Spalten repräsentieren die Spalte mns bezogen auf Fragen.

+0

Vielen Dank für Ihre Antwort, aber es gibt mir eine Fehlermeldung "falsche Anzahl von Dimensionen" –

+0

Ist meine Daten ein data.frame? –

+0

mydata, ist die Datendatei, in der die Werte enthalten sind. –

0

Denken Sie daran, dass R automatisch Zahlen an die Beobachtungen in Ihrem Datensatz anhängt. Wenn Ihre Daten beispielsweise 20 Beobachtungen (20 Zeilen) enthalten, fügt R Zahlen von 1 bis 20 hinzu, die eigentlich nicht zu Ihren ursprünglichen Daten gehören. Sie sind die Zeilennummern. Die mit dem R-Code: erzeugten Ergebnisse entsprechen diesen Zahlen. Die Zahlen sind die Zeilen Ihres Datensatzes mit mindestens einem fehlenden Datenelement (Spalte).