Удаление группы с условным оператором в r

Условное утверждение заключается в том, что в любом случае, если есть две или более последовательных строки со значениями выше 1, группа должна быть удалена.

Например:

Event<- c(1,1,1,1,2,2,2,2,2,2,3,3,3,3,3)
Value<- c(1,0,0,0,8,7,1,0,0,0,8,0,0,0,0)
A<- data.frame(Event, Value)

Event   Value
  1       1
  1       0
  1       0
  1       0
  2       8
  2       7
  2       1
  2       0
  2       0
  2       0
  3       8
  3       0
  3       0
  3       0
  3       0

В этом примере группу события 2 следует удалить, поскольку в ней есть две последовательные строки со значениями выше 1. Таким образом, это должно выглядеть так:

Event   Value
  1       1
  1       0
  1       0
  1       0
  3       8
  3       0
  3       0
  3       0
  3       0

Любое предложение?


person Noel    schedule 25.04.2020    source источник
comment
Да, более чем на 1.   -  person Noel    schedule 25.04.2020
comment
Если в группе более 1 последовательных строк со значениями ›1, я хочу удалить группу   -  person Noel    schedule 25.04.2020
comment
Извините, это с более чем 1 последовательной строкой группы. Как показано на примере   -  person Noel    schedule 25.04.2020
comment
Всегда ли внутри группы значения убывают, как в этом примере? Или у нас может быть, например, в одной группе: 3, 0, 1, 5 в таком порядке (это означает, что группу НЕ следует удалять, потому что числа больше 1 не являются последовательными)?   -  person Aaron Montgomery    schedule 25.04.2020
comment
Не обязательно. В вашем примере (3,0,1,5) вы правы, удалять не надо.   -  person Noel    schedule 25.04.2020


Ответы (3)


Мы можем использовать rle по группам.

library(dplyr)
A %>%
 group_by(Event) %>%
 filter(!any(with(rle(Value > 1), lengths[values] > 1)))
 #Opposite way using all
 #filter(all(with(rle(Value > 1), lengths[values] < 2)))

#  Event Value
#  <dbl> <dbl>
#1     1     1
#2     1     0
#3     1     0
#4     1     0
#5     3     8
#6     3     0
#7     3     0
#8     3     0
#9     3     0

Та же логика может быть использована в базе R:

subset(A, !ave(Value > 1, Event, FUN = function(x) 
               any(with(rle(x), lengths[values] > 1))))

а также data.table

library(data.table)
setDT(A)[, .SD[!any(with(rle(Value > 1), lengths[values] > 1))], Event]
person Ronak Shah    schedule 25.04.2020

Использование dplyr

A %>%
  group_by(Event) %>%
  mutate(consec = if_else(Value > 1, row_number(), 0L),
         remove = if_else(consec > 1,"Y","N")) %>%
  filter(!any(remove == "Y")) %>%
  select(-c("consec","remove"))
person Matt    schedule 25.04.2020

Подход base R:

# split the dataframe by event into separate lists, record whether values are > 1 (T/F)
A_split <- split(A$Value > 1, Event)

# for each item in the list, record the number of consecutive T values;
# make T/F vector "keep" with row names corresponding to A$Event
keep <- sapply(A_split, function(x) sum(x[1:length(x) - 1] * x[2:length(x)])) == 0 

# convert keep to numeric vector of A$Event values
keep <- as.numeric(names(keep == T))

# subset A based on keep vector
A[A$Event %in% keep, ]

person Aaron Montgomery    schedule 25.04.2020