รับลิงค์จริงจากลิงค์ฟีด rss

ฉันกำลังทดลองคัดลอกหน้าบางหน้าจากฟีด RSS โดยใช้ curl และ php การคัดลอกหน้าทำงานได้ดีเมื่อฉันใช้ลิงก์จริง ไม่ใช่ลิงก์จากฟีด RSS อย่างไรก็ตาม ฉันรู้แล้วว่าลิงก์ในฟีด RSS มักจะเป็นเพียงการเปลี่ยนเส้นทางไปยังหน้าจริง (อย่างน้อยก็หน้าตาเป็นแบบนี้) เพราะตอนนี้เมื่อฉันขูดเพจที่มีลิงก์ rss มันไม่ได้รับข้อมูลที่ฉันต้องการจริงๆ

มีใครเคยเจอสิ่งนี้และรู้วิธีแก้ปัญหา มีวิธีดูว่าลิงก์ rss เปลี่ยนเส้นทางไปที่ไหนและจับค่านั้นหรือไม่


person pfunc    schedule 08.05.2010    source แหล่งที่มา


คำตอบ (1)


ฉันคิดว่าคุณอาจต้องใช้สวิตช์ -L เพื่อบอกให้ติดตามการเปลี่ยนเส้นทาง ฉันไม่แน่ใจว่าคุณสามารถทำได้โดยตรงจาก PHP หรือไม่หรือจำเป็นต้องปฏิบัติตามแนวทางนี้ http://php.net/manual/en/function.curl-setopt.php#95027 เป็นไปได้เสมอว่าไซต์ที่คุณกำลังขูดบล็อกโดยตัวแทนผู้ใช้หรือบางอย่างเช่นกัน อาจลองใช้ลิงก์ใดลิงก์หนึ่งในเบราว์เซอร์ขณะเรียกใช้ Fiddler หรือที่คล้ายกันเพื่อดูว่ามีการเปลี่ยนเส้นทางเกิดขึ้นจริงหรือไม่

person Martin Smith    schedule 08.05.2010
comment
ขอบคุณ ใช่แล้ว ฉันจัดการเพื่อค้นหาสคริปต์ที่วนซ้ำการเปลี่ยนเส้นทางและพบสคริปต์สุดท้าย ดูเหมือนว่าไซต์ส่วนใหญ่ไม่ได้ถูกบล็อกโดย useragent แต่มีบางแห่ง - person pfunc; 10.05.2010