2016-06-06 4 views
0

Neu bei Rstudio. Verwenden der Version 0.99.491 unter Windows. Da ich einen sicheren Server-Zugang nutze, kann ich keine zusätzlichen Pakete herunterladen.Wie kombiniere ich zwei Datumsvariablen in Rstudio, wobei nur das früheste Datum aus den beiden Variablen beibehalten wird?

In einem Datensatz mit 450.994 Zeilen und 92 Variablen, ich bin derzeit mit den drei folgenden Variablen

d $ Patienten: id-Nummer für Patienten, die für die Zusammenführung und Organisation der alle Variablen verwendet wird. (Faktor w. 320000 Ebenen "123456789012", ...: NA 1 2 3 4 4 4 5 ...)

d $ utiadm: Datum für die erste Aufnahme ins Krankenhaus (Datum, Format: NA NA NA "2016 -01-01" NA ...)

d $ utiAB: Datum für die erste Rücknahme von Antibiotika (Datum, Format: NA "2016.01.02" NA NA NA ...)

Die Termine werden als "YYYY-MM-DD" ausgedrückt und ich möchte, dass das neue Datum identisch ist.

Einige Patienten wurden beide zugelassen und erlöst Antibiotika, während die meisten entweder eine Aufnahme haben oder Abtibiotika eingelöst haben. Für diejenigen, die nur eine Variable haben, möchte ich das Datum in der neuen Variable behalten. Für diejenigen, die sowohl Aufnahme als auch Antibiotika haben, möchte ich das Datum des ersten Kommens behalten und das spätere wegwerfen (wenn sie zuerst zugelassen wurden, dann ist es mir egal, dass sie später Antibiotika erhielten).

Wie kombiniere ich zwei Datumsvariablen zu einer neuen Datumsvariablen (d $ utiall), wobei alle Daten, die nicht überlappen, und nur das erste Datum, wo sie sich überlappen?

Antwort

0

Hoffentlich kann jemand anderes profitieren :)

d$utiall <- apply(d[c('utiadm', 'utiAB')], 1, min, na.rm = T) 

Dies gibt eine Warnung aus, wenn einige Zeilen NA in beiden Variablen sind, aber diese Zeilen als NA ohnehin nur Codes.

Es funktionierte für mich sowieso.