Sesi pengkodean waktu luang selama 5 menit dapat memberikan manfaat yang luar biasa bagi para ilmuwan data

Pihak berwenang di New York menghabiskan sebagian waktu dan uang publiknya untuk mengumpulkan data tentang tupai. Kumpulan data ini disebut data Sensus Tupai NYC.



Himpunan data

Kumpulan data berisi informasi tentang individu tupai. Beberapa kolomnya adalah

  • Kategori umur
  • ID Tupai
  • Aktivitas yang dilakukannya
  • Kedengarannya memang benar
  • Warna kulit

Mengakses data

data_url <- 'https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2019/2019-10-29/nyc_squirrels.csv'
d_raw <- read_csv(data_url)
head(d_raw)

Pembersihan dan penyaringan

Mari kita hapus beberapa kolom dan menganalisis sisanya.

%›% adalah simbol pipa dan dijelaskan secara rinci di sini

Merencanakan

Sekarang mari kita ambil beberapa informasi untuk membuat plot.

d_activity <- data %>% 
  # select only identifiers and activities column
  select(c(identifiers, activities)) %>%
  select(-c(other_activities)) %>%
  pivot_longer(-identifiers, names_to = 'Activity', values_to = 'Value') %>%
  # remove all rows with false value
  filter(Value == T)

Kerangka data baru ini terlihat lebih bersih.

Aktivitas Berdasarkan Waktu

Mari kita lihat bagaimana tupai menghabiskan waktunya siang dan malam.

p <- ggplot(data = d_activity, aes(x=Activity, fill=shift)) + 
  geom_bar(position = 'dodge') 
print(p)

Kita dapat melihat dengan jelas bahwa terdapat lebih banyak aktivitas mencari makan dan makan di malam hari dibandingkan dengan aktivitas lain yang dilakukan secara merata di siang hari.

Mengkategorikan berdasarkan Usia

Mari kita lihat bagaimana pembagian tupai berdasarkan umur.

p<- ggplot(data = data, aes(x=age, fill=age)) +
    geom_bar(width=1) 
print(p)

Kita dapat melihat bahwa ada beberapa entri yang bersifat NA dan ada pula yang diberi label tanda tanya.

Analisis Suara

Mari kita analisis suara yang dihasilkan oleh makhluk kecil yang lucu dan gelisah ini. Perhatikan penggunaan pivoting (pivot_longer) pada kode di bawah ini. Pivot dijelaskan secara detail di sini.

# Analysis for the squirrel sounds and human interractions
sound_activity <- data %>%
  select(c(unique_squirrel_id, age,sounds)) %>%
  pivot_longer(-c(unique_squirrel_id, age), names_to = 'Sound',    
    values_to = 'Value') %>%
  drop_na(age) %>%
  filter(Value== TRUE)

Kerangka data yang dihasilkan terlihat seperti ini

Mari kita plot dan lihat sendiri.

p <- ggplot(sound_activity, aes(x = age, fill= Sound)) +
     geom_bar(stat = "count")
print(p)

Kita dapat melihat sejumlah besar tupai dewasa mengeluarkan suara kuks. Namun, dalam data mentah, jumlah tupai dewasa jauh lebih banyak dibandingkan tupai remaja. Data ini tidak menunjukkan perbandingan yang adil mengenai persentase orang dewasa yang mengeluarkan suara-suara tersebut.

Jika diplot tampilannya seperti berikut

Perhatikan bahwa persentase tupai remaja yang menghasilkan bunyi kuk lebih tinggi. Padahal, suara quaas serupa di semua kategori umur. Sebab, suara quaas menandakan adanya predator sehingga dapat dikatakan bahwa tupai tetap takut terhadap predator meski usianya sudah bertambah.

Kedengarannya berdasarkan waktu

Mari kita lihat bagaimana suara didistribusikan sepanjang waktu.

Kita dapat melihat bahwa kuk mendominasi jumlah suara. Meski begitu, suara quaas dan erangan yang terjadi menjelang malam menunjukkan perubahan suasana hati dari main-main menjadi takut.

Lokasi dengan waktu

Mari kita lihat bagaimana tupai bergerak terhadap waktu

Kami melihat semakin banyak tupai yang turun ke tanah menjelang malam. Hal ini mungkin disebabkan oleh jumlah makanan yang lebih banyak atau jumlah manusia yang lebih sedikit yang mengganggu mereka.

Lokasi seiring bertambahnya usia

Mari kita lihat juga bagaimana lokasi berubah seiring bertambahnya usia.

Kami melihat persentase orang dewasa yang tetap tinggal di lapangan lebih tinggi. Hal ini nampaknya intuitif karena mereka lebih tidak kenal takut.

Analisis menarik terakhir adalah melihat interaksi antara manusia dan tupai.

Interaksi Tupai Manusia

Dalam jumlah absolut, tupai tua sebagian besar tidak peduli terhadap manusia. Bagan di bawah ini tidak memberikan gambaran relatif.

Mari kita lihat perilaku tupai ketika dinormalisasi dengan jumlah keseluruhannya.

Kita dapat melihat bahwa tupai tua sebenarnya lebih acuh terhadap manusia, namun tupai yang cenderung mendekati manusia persentasenya lebih kecil dibandingkan dengan tupai remaja.

Terima kasih kepada Rahul dan satyaprakash pareek yang telah membantu analisis. Untuk tugas yang lebih menyenangkan di R, ikuti repo github yang dibuat oleh Rahul Nayak ini.



R membuat analisis data menjadi menyenangkan. Ini adalah alat yang harus diketahui oleh data scientist pemula.