xmlRoot не возвращает допустимый элемент при анализе html-документа с использованием пакета XML в R

Я хочу проанализировать html, чтобы вытащить определенные фрагменты с помощью xpathSApply, но вызов xmlRoot возвращает элемент, имя которого является текстом всего документа:

> url <- "http://www.achaea.com/game/who"
> doc <- htmlParse(url)
> top <- xmlRoot(doc)
> xmlName(top)

Который отображает весь HTML-документ для «имени», а не для имени корневого элемента. Может ли кто-нибудь сказать мне, в чем причина такого поведения? Я хочу иметь возможность вытащить отдельные имена в hrefs «почести».

r xml html dom

gregbowman 13.04.2014 источник

comment

Спасибо, Рэнди, вы правы, я вышел из RStudio, снова запустил его и получил ваши результаты. Похоже, у меня было какое-то взаимодействие с ранее выполненным кодом. Я должен был использовать rm на документе, чтобы иметь чистый лист. Это решает мою проблему. - gregbowman 13.04.2014

comment

Я подумал, что неправильно понял ваш вопрос, и удалил комментарий ... в любом случае, посмотрите, даст ли мой ответ то, что вы хотите. - Randy Lai 13.04.2014

comment

Пожалуйста, рассмотрите возможность удаления вопроса, так как это не было проблемой. - hrbrmstr 13.04.2014

Ответы (1)

arrow_upward
1
arrow_downward

Пытаться

xpathSApply(top, "//div[@id='content']//a", xmlValue)

Если вы хотите ссылки

xpathSApply(top, "//div[@id='content']//a", xmlAttrs, "href")

Randy Lai 13.04.2014

xmlRoot не возвращает допустимый элемент при анализе html-документа с использованием пакета XML в R

Ответы (1)

Вопросы по теме