Saya mencoba mengikis situs web moderna/pfizer untuk melihat tanggal berapa mereka merilis berita. Kode di R memberikan karakter keluaran (0) dan bukan tanggal

Ini kode yang saya jalankan untuk pfizer dan Moderna (paket yang digunakan: 'rvest')

Pfizer:

scrape_url ‹- http://www.pfizer.com/news

halaman web ‹- read_html(scrape_url)

pfizer_newsdates_html ‹- html_nodes(halaman web,'.rssDate')

pfizer_newsdates ‹- html_text(pfizer_newsdates_html)

kepala(pfizer_tanggal berita)


Untuk moderna-

scrape_url2 ‹- https://investors.modernatx.com/news-releases

halaman web2 ‹- read_html(scrape_url)

moderna_newsdates_html ‹- html_nodes(halaman web,'.nir-widget--berita--tanggal-waktu')

moderna_newsdates ‹- html_text(moderna_newsdates_html)

kepala(moderna_tanggal berita)


person user15681053    schedule 18.04.2021    source sumber


Jawaban (1)


Untuk Pfizer, gunakan kelas yang tepat. Untuk Moderna, penggunaan httr sebagai header agen pengguna diperlukan

library(rvest)
library(magrittr)
library(httr)
library(stringr)

moderna_dates <- read_html(httr::GET('https://investors.modernatx.com/news-releases', add_headers("User-Agent" = "Mozilla/5.0"))) %>% 
  html_nodes('.nir-widget--news--date-time') %>% html_text() %>% str_squish()

pfizer_dates <- read_html('https://www.pfizer.com/news') %>% 
  html_nodes('.views-field-field-press-release-date') %>% html_text()
person QHarr    schedule 18.04.2021
comment
Saya mendapatkan output dalam format seri. Bisakah saya melakukan deret Waktu dengan keluaran ini di langkah berikutnya? jika ya bagaimana? - person user15681053; 19.04.2021