คัดลอกข้อมูลเฉพาะจากเว็บไซต์ไปยัง Excel

เพื่อนของฉันคนหนึ่งขอให้ฉันหาวิธีรับข้อมูลจากเว็บไซต์และใส่ลงในไฟล์ Excel

นี่คือเว็บไซต์ที่เป็นปัญหา: http://www.manta.com/world/North+America/Canada/Newfoundland/grocery_stores--B619B/#Location

เขาต้องการมีไฟล์ Excel พร้อมรายชื่อ ที่อยู่ และหมายเลขโทรศัพท์ทั้งหมดของผลการค้นหาทั้งหมด

จนถึงตอนนี้ฉันนิ่งงันกับความคิด ฉันค่อนข้างใหม่กับการเขียนโปรแกรมอินเทอร์เน็ต

ฉันคิดว่าบางทีฉันอาจสร้างสคริปต์ผู้ใช้ Greasemonkey ซึ่งจะค้นหาข้อมูลที่จำเป็นทั้งหมดบนหน้าเว็บ และเมื่อคลิกปุ่มจะเปิดป๊อปอัปซึ่งจะมีข้อมูลในรูปแบบ CSV ซึ่งสามารถคัดลอกและวางลงในนั้นได้ เก่ง อย่างไรก็ตาม หมายเลขโทรศัพท์ไม่อยู่ในหน้าผลการค้นหา ดังนั้นฉันจึงไม่คิดว่าจะเป็นไปได้

ความคิดที่สองของฉันคือการสร้างหน้าเว็บที่จะค้นหาไซต์นั้นและรับข้อมูลที่จำเป็นทั้งหมด จากนั้นให้มีตัวเลือก "ดาวน์โหลดข้อมูลไปยัง Excel" แนวคิดเหล่านี้เป็นไปได้หรือไม่ และฉันจะทำอย่างไรให้ดีที่สุด มีวิธีที่ดีกว่า? ขอบคุณ!


person Peter    schedule 14.08.2011    source แหล่งที่มา
comment
สิ่งนี้จะทำให้ TOS ของไซต์แตก คุณไม่ควรทำ   -  person    schedule 15.08.2011
comment
@Dagon โอ้ใช่แล้วฉันไม่รู้เลย!   -  person Peter    schedule 15.08.2011
comment
@Dagon ฉันไม่ได้ปฏิเสธว่ามันพูดอย่างนั้น แต่แค่สงสัยว่ามันบอกว่าคุณทำอย่างนั้นไม่ได้ที่ไหน?   -  person Peter    schedule 15.08.2011
comment
manta.com/coms2/page_terms_conditions_view ใบอนุญาตและการใช้งานที่ได้รับอนุญาต คุณสามารถขอให้พวกเขาแน่ใจได้ตลอดเวลา . คนส่วนใหญ่จะไม่ใส่ใจ แต่ในฐานะผู้สร้าง IP ฉันมักจะทำเช่นนั้น   -  person    schedule 15.08.2011


คำตอบ (1)


คำตอบนี้จะง่ายกว่าหากเรารู้ว่าคุณคุ้นเคยภาษาใด

สมมติว่า windows สามารถทำได้โดยใช้ jscript หรือ vbscript บน WSH โดยใช้ WinHttpRequest Excel อาจเข้าถึงได้ผ่าน ActiveX หากคุณต้องการ UI ฉันจะแนะนำ HTA

person Dr.Molle    schedule 14.08.2011
comment
ดังนั้นคุณอาจใช้วิธีการที่อธิบายไว้ในคำตอบของฉัน นอกจากนี้ยังสามารถใช้ PHP ได้ คุณอาจอ่านหน้าโดยใช้ file_get_contents() หรือที่คล้ายกัน Excel สามารถเข้าถึงได้ใน PHP ผ่านทาง COM(แน่นอนว่าคุณสามารถใช้ไลบรารีบางอย่างเช่น pear.php.net/package/Spreadsheet_Excel_Writer/redirected ) - person Dr.Molle; 15.08.2011