2016-03-21 7 views
2

Ich habe einen data.frame, die für jeden id von linearen Intervallen besteht:Merge lineare Intervalle

df <- data.frame(id = c(rep("a",3),rep("b",4),rep("d",4)), 
       start = c(3,4,10,5,6,9,12,8,12,15,27), 
       end = c(7,8,12,8,9,13,13,10,15,26,30)) 

ich für eine effiziente Funktion bin auf der Suche, die alle schneidende Intervalle für jeden id werden sich vereinen. Für df das Ergebnis schlecht:

res.df <- data.frame(id = c("a","a","b","d","d","d"), 
        start = c(3,10,5,8,12,27), 
        end = c(8,12,13,10,26,30)) 

Für welche schließlich werde ich in der Lage sein, alle vereint Intervalle zu summieren pro jeder id ihre kombinierte Länge zu erhalten:

sapply(unique(res.df$id), function(x) sum(res.df$end[which(res.df$id == x)]-res.df$start[which(res.df$id == x)]+1)) 
+0

Dies könnte nützlich: http://stackoverflow.com/questions/27574775/is-it-possible-use-the-r-data-table-funcion-foverlaps-to-find-the-intersectio – thelatemail

Antwort

3
#source("https://bioconductor.org/biocLite.R") 
#biocLite("IRanges") 
library(IRanges) 
df1 <- as(df, "RangedData") 

as.data.frame(reduce(df1, by = "id", min.gapwidth = 0.5)) 

# space start end width id 
#1  1  3 8  6 a 
#2  1 10 12  3 a 
#3  1  5 13  9 b 
#4  1  8 10  3 d 
#5  1 12 26 15 d 
#6  1 27 30  4 d