Menghapus grup dengan pernyataan bersyarat di r

Pernyataan bersyaratnya adalah bahwa dalam kejadian apa pun, jika ada dua atau lebih baris berturut-turut dengan nilai lebih tinggi dari 1, grup tersebut harus dihapus.

Misalnya:

Event<- c(1,1,1,1,2,2,2,2,2,2,3,3,3,3,3)
Value<- c(1,0,0,0,8,7,1,0,0,0,8,0,0,0,0)
A<- data.frame(Event, Value)

Event   Value
  1       1
  1       0
  1       0
  1       0
  2       8
  2       7
  2       1
  2       0
  2       0
  2       0
  3       8
  3       0
  3       0
  3       0
  3       0

Dalam contoh ini grup kejadian 2 harus dihapus karena memiliki dua baris berturut-turut dengan nilai lebih tinggi dari 1. Jadi akan terlihat seperti:

Event   Value
  1       1
  1       0
  1       0
  1       0
  3       8
  3       0
  3       0
  3       0
  3       0

Ada saran?


person Noel    schedule 25.04.2020    source sumber
comment
Ya, lebih dari 1.   -  person Noel    schedule 25.04.2020
comment
Jika ada lebih dari 1 baris grup yang berurutan, dengan nilai ›1 maka saya ingin menghapus grup tersebut   -  person Noel    schedule 25.04.2020
comment
Maaf, dengan lebih dari 1 baris grup berturut-turut. Seperti yang ditunjukkan pada contoh   -  person Noel    schedule 25.04.2020
comment
Dalam suatu grup, apakah nilainya selalu menurun, seperti pada contoh ini? Atau bisakah kita memiliki, misalnya, dalam grup yang sama: 3, 0, 1, 5 dalam urutan itu (artinya grup tersebut TIDAK boleh dihapus karena angka yang lebih besar dari 1 tidak berurutan)?   -  person Aaron Montgomery    schedule 25.04.2020
comment
Tidak perlu. Dalam contoh Anda (3,0,1,5) Anda benar, itu tidak boleh dihapus.   -  person Noel    schedule 25.04.2020


Jawaban (3)


Kita dapat menggunakan rle secara berkelompok.

library(dplyr)
A %>%
 group_by(Event) %>%
 filter(!any(with(rle(Value > 1), lengths[values] > 1)))
 #Opposite way using all
 #filter(all(with(rle(Value > 1), lengths[values] < 2)))

#  Event Value
#  <dbl> <dbl>
#1     1     1
#2     1     0
#3     1     0
#4     1     0
#5     3     8
#6     3     0
#7     3     0
#8     3     0
#9     3     0

Logika yang sama dapat digunakan di basis R :

subset(A, !ave(Value > 1, Event, FUN = function(x) 
               any(with(rle(x), lengths[values] > 1))))

serta data.table

library(data.table)
setDT(A)[, .SD[!any(with(rle(Value > 1), lengths[values] > 1))], Event]
person Ronak Shah    schedule 25.04.2020

Menggunakan dplyr

A %>%
  group_by(Event) %>%
  mutate(consec = if_else(Value > 1, row_number(), 0L),
         remove = if_else(consec > 1,"Y","N")) %>%
  filter(!any(remove == "Y")) %>%
  select(-c("consec","remove"))
person Matt    schedule 25.04.2020

Pendekatan base R:

# split the dataframe by event into separate lists, record whether values are > 1 (T/F)
A_split <- split(A$Value > 1, Event)

# for each item in the list, record the number of consecutive T values;
# make T/F vector "keep" with row names corresponding to A$Event
keep <- sapply(A_split, function(x) sum(x[1:length(x) - 1] * x[2:length(x)])) == 0 

# convert keep to numeric vector of A$Event values
keep <- as.numeric(names(keep == T))

# subset A based on keep vector
A[A$Event %in% keep, ]

person Aaron Montgomery    schedule 25.04.2020