Finden Sie eindeutige Zeilen in einem Datenrahmen in R

Ich möchte eine neue Datenrahmenspalte erstellen, die mir hilft, doppelte Zeilen schnell anhand des Werts der ersten Spalte pro Zeile (Index) zu identifizieren. Unter der Annahme, dass mein Datenrahmen (df) hat fast 18000 Reihen-Beobachtungen und die neue Spalte wird als „einzigartig“ Ich habe folgende eher erfolglos versucht ...Finden Sie eindeutige Zeilen in einem Datenrahmen in R

df$unique = ifelse(df[row.names(df):1]==df[row.names(df)-1:1], "YES", "NO")

Die Logik hinter dem Code ist, dass ein Vergleich zwischen dem Zelle derselben Zeile und die vorherige in derselben Spalte können eindeutige Einträge ausgeben, solange diese Werte nicht übereinstimmen.

Mein Datenrahmen

index num1 num2 
1  12 12 
1  12 12 
2  14 14 
2  14 14 
2  14 14 
3  18 18 
4  19 19

Quelle

2016-07-01 civy

Ihre Frage ist nicht ganz klar. Bitte geben Sie ein reproduzierbares Beispiel und die gewünschte Ausgabe an. –

können Sie verwenden, um die duplicated Funktion. Seien Sie sich bewusst, dass das erste Vorkommen einer nicht eindeutigen Spalte kein Duplikat ist. Daher brauchen wir es zweimal, indem wir von Anfang und Ende suchen.

# Toy data, where the first two rows are identical, the third row is unique 
df <- data.frame(a = c(1, 1, 1), b = c(1, 1, 2)) 

# Find unique columns 
df$unique <- !(duplicated(df) | duplicated(df, fromLast = TRUE))

Ausgang:

> df 
    a b unique 
1 1 1 FALSE 
2 1 1 FALSE 
3 1 2 TRUE

Quelle

2016-07-01 10:34:44

Finden Sie eindeutige Zeilen in einem Datenrahmen in R

Antwort

Verwandte Themen