xmlRoot ไม่ส่งคืนองค์ประกอบที่ถูกต้องเมื่อแยกวิเคราะห์เอกสาร html โดยใช้แพ็คเกจ XML ใน R

ฉันต้องการแยกวิเคราะห์ html เพื่อดึงส่วนเฉพาะออกมาโดยใช้ xpathSApply แต่การเรียก xmlRoot ส่งคืนองค์ประกอบที่มีชื่อเป็นข้อความของเอกสารทั้งหมด:

> url <- "http://www.achaea.com/game/who"
> doc <- htmlParse(url)
> top <- xmlRoot(doc)
> xmlName(top)

ซึ่งแสดงเอกสาร HTML ทั้งหมดสำหรับ 'ชื่อ' แทนที่จะเป็นชื่อองค์ประกอบรูท ใครช่วยบอกฉันหน่อยได้ไหมว่าอะไรคือสาเหตุของพฤติกรรมนี้ ฉันต้องการที่จะดึงชื่อบุคคลใน hrefs 'เกียรตินิยม' ออกมาได้

r xml html dom

gregbowman 13.04.2014 แหล่งที่มา

comment

ขอบคุณ Randy คุณพูดถูก ฉันออกจาก RStudio แล้วเริ่มสำรองข้อมูลและรับผลลัพธ์ของคุณ ดูเหมือนว่าฉันมีปฏิสัมพันธ์บางอย่างกับโค้ดที่ดำเนินการก่อนหน้านี้ ฉันควรใช้ rm บน doc เพื่อให้กระดานชนวนสะอาด วิธีนี้ช่วยแก้ไขปัญหาของฉัน - gregbowman 13.04.2014

comment

ฉันคิดว่าฉันเข้าใจคำถามของคุณผิดและลบความคิดเห็นออก...อย่างไรก็ตาม ดูว่าคำตอบของฉันให้สิ่งที่คุณต้องการหรือไม่ - Randy Lai 13.04.2014

comment

โปรดพิจารณาลบคำถามออกเนื่องจากไม่ใช่ปัญหา - hrbrmstr 13.04.2014

คำตอบ (1)

arrow_upward
1
arrow_downward

พยายาม

xpathSApply(top, "//div[@id='content']//a", xmlValue)

หากคุณต้องการลิงค์

xpathSApply(top, "//div[@id='content']//a", xmlAttrs, "href")

Randy Lai 13.04.2014

xmlRoot ไม่ส่งคืนองค์ประกอบที่ถูกต้องเมื่อแยกวิเคราะห์เอกสาร html โดยใช้แพ็คเกจ XML ใน R

คำตอบ (1)

คำถามในหัวข้อ