สิ่งตีพิมพ์ในหัวข้อ 'web-scraping'


เครื่องมือขูดเว็บอย่างง่ายด้วย Node.js
ฉันเขียนบทความเล็กๆ นี้หลังจากที่ฉันได้ขูดเว็บง่ายๆ สำหรับไซต์ที่ฉันกำลังสร้างแล้ว ทุกอย่างเป็นพื้นฐานมาก หมายเหตุ! เว็บไซต์บางแห่งห้ามไม่ให้ใช้เครื่องขูด ดังนั้นโปรดตรวจสอบให้แน่ใจก่อนทำการขูด และถึงแม้จะพยายามทำสิ่งนี้โดยมีผลกระทบน้อยที่สุด (การเรียกใช้ http หลายครั้งในแต่ละสองสามวินาทีอาจไม่ดีนักใช่ไหม) การขูดเว็บคืออะไร สมมติว่าคุณต้องการข้อมูลจากบางไซต์ เช่น รายการบทความพร้อมลิงก์และผู้แต่ง ไซต์เก่าๆ มักจะไม่มี API ที่จะช่วยเหลือคุณในงานนี้..

บทนำอย่างอ่อนโยนเกี่ยวกับการแยกข้อมูลเว็บ | ขูดด้วย 🐍
บทนำอย่างอ่อนโยนเกี่ยวกับการแยกข้อมูลเว็บ | ขูดด้วย 🐍 ข้อมูลมีอยู่ทั่วไป ข้อมูลอยู่บนเว็บ แต่เว็บคืออะไร? แล้วจะดึงข้อมูลจากมันได้อย่างไร? โพสต์นี้เป็นบทความแรกของซีรีส์ “Scraping with Python 🐍 ” ที่ฉันตั้งใจจะอธิบายและสอนตั้งแต่แนวคิดพื้นฐานไปจนถึงขั้นสูงสุด การแนะนำ คุณต้องการรวบรวมข้อมูลจากเว็บแต่ไม่รู้ว่าจะเริ่มต้นอย่างไร? คุณติดตาม Scrapy startproject tutorial แล้ว แต่สไปเดอร์ของคุณยังไม่คลานเว็บใช่ไหม คุณไม่เคยได้ยินคำว่า crawling มาก่อนเลยเหรอ? เยี่ยมมาก..

การขูดเว็บด้วย Puppeteer และ Nodejs
ในบทความนี้ ฉันจะแสดงให้คุณเห็นว่าคุณสามารถทำการขูดเว็บโดยใช้ Puppeteer และ Nodejs ได้อย่างไร ในการเริ่มต้น เราต้องทำความเข้าใจก่อนว่าการขูดเว็บคืออะไร และ Puppeteer สามารถช่วยให้เราทำเช่นนั้นได้อย่างไร การขูดเว็บ การขูดเว็บเป็นกระบวนการดึงข้อมูลจากหน้าเว็บ มันเกี่ยวข้องกับการดึงข้อมูลหน้าเว็บแล้วดึงข้อมูลออกมา หลังจากแยกข้อมูลแล้ว คุณสามารถทำอะไรก็ได้ที่คุณต้องการด้วยข้อมูลนั้น คุณสามารถใช้สิ่งนั้นสำหรับ API หรือเก็บไว้ในไฟล์ CSV นักเชิดหุ่น Puppeteer เป็นไลบรารี Nodejs..

การขับรถโดยข้อมูล: การเดินทางของฉันเพื่อค้นหารถที่สมบูรณ์แบบ
โปรแกรมขูดเว็บที่เป็นนวัตกรรมใหม่เพื่อสร้างคำแนะนำเกี่ยวกับรถใช้แล้วส่วนบุคคล เมื่อฉันลาจากวิทยาลัยสองสามวันเพื่อวันขอบคุณพระเจ้าในปี 2022 ในที่สุดฉันก็พบว่าตัวเองมีเวลาว่างที่จำเป็นมาก แม้ว่าฉันจะใช้เวลาส่วนใหญ่กับครอบครัว แต่ฉันก็ยังอยากจะเริ่มทำโปรเจ็กต์ส่วนตัวที่จะใช้ทักษะที่ฉันได้รับในภาคเรียนนั้นด้วย เมื่อฉันกำลังจะฝึกงานที่ Ericsson ในเมืองดัลลัส รัฐเท็กซัส ฉันจำเป็นต้องซื้อรถคันแรก แต่ฉันรู้เพียงเล็กน้อยเกี่ยวกับตลาดรถยนต์มือสอง..

การขูดเว็บด้วย JavaScript: คู่มือสำหรับผู้เริ่มต้น
การแนะนำ การขูดเว็บหรือที่เรียกว่าการเก็บเกี่ยวเว็บหรือการดึงข้อมูลเว็บเป็นกระบวนการดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ ข้อมูลนี้อาจรวมถึงข้อความ รูปภาพ วิดีโอ และข้อมูลประเภทอื่นๆ ข้อมูลนี้สามารถใช้เพื่อวัตถุประสงค์ที่หลากหลาย เช่น การวิจัย การวิเคราะห์ข้อมูล การวิเคราะห์ตลาด และอื่นๆ การขูดเว็บทำได้โดยใช้โปรแกรมซอฟต์แวร์หรือที่เรียกว่า web scraper เพื่อส่งคำขอ HTTP ไปยังเซิร์ฟเวอร์ของเว็บไซต์ จากนั้นเซิร์ฟเวอร์จะส่งโค้ด HTML สำหรับเว็บไซต์กลับมา..

XPath Helper: เครื่องมืออันทรงพลังสำหรับการดึงข้อมูลจากเว็บเพจ
เรียนรู้วิธีใช้ส่วนขยายเบราว์เซอร์ Chrome นี้เพื่อค้นหาและสร้างนิพจน์ XPath สำหรับองค์ประกอบบนหน้าเว็บได้อย่างง่ายดาย ฉันแสดงงานขูดเว็บมากมายและสร้างรายได้ที่น่าดึงดูดมากจากงานเหล่านี้ ฉันมักจะใช้ Python ส่วนใหญ่เป็นซีลีเนียม ดังนั้นฉันจึงต้องใช้ XPATH เพื่อรับข้อมูลของฉัน ในงานแสดงที่ดีที่สุดของฉัน ฉันมีรายได้มากกว่า 1,000 ดอลลาร์ต่อชั่วโมงตามอัตรารายชั่วโมง ไม่เคยคิดค่าใช้จ่ายเป็นชั่วโมงโดยโครงการ การ...

คำถามในหัวข้อ 'web-scraping'

ฉันจะคลิกปุ่มบนไซต์อื่นโดยทางโปรแกรมได้อย่างไร
ฉันต้องการเข้าสู่ไซต์อื่นด้วยโปรแกรมของฉัน (asp.net/C#) ฉันจะรวบรวมข้อมูลไซต์และค้นหากล่องข้อความชื่อผู้ใช้และรหัสผ่านและกรอกข้อมูลที่จำเป็นได้อย่างไร แล้วฉันจะกด/ยิงปุ่มเข้าสู่ระบบได้อย่างไร? หมายเหตุ: ฉันรวบรวมข้อมูลไซต์ด้วย...
4215 มุมมอง
schedule 13.11.2023

แยกข้อมูลเดียวกันจากเอกสาร HTML ต่างๆ
สมมติว่าฉันมีหน้า HTML หลายหน้าจากเว็บไซต์ที่ไม่เกี่ยวข้อง แต่มีข้อมูลโดยรวมเหมือนกัน ฉันต้องการดึงข้อมูลนั้นในลักษณะที่ยืดหยุ่น เช่น ฉันต้องการเขียนตัวแยกข้อมูลจำนวนเล็กน้อยสำหรับทุกหน้า (ในอุดมคติแล้วคือตัวเดียว) สมมติว่าช่องต่างๆ คือ...
63 มุมมอง
schedule 20.12.2023

Node.JS ส่งคำขอผ่านเว็บพรอกซี
ฉันเขียนเครื่องมือขูดเว็บในอดีตด้วย C# เครื่องมือขูดใช้ tor เป็นพร็อกซีเซิร์ฟเวอร์และส่งคำขอเช่นนั้น: HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://whatismyipaddress.com/"); request.Proxy = new...
755 มุมมอง
schedule 30.11.2023

แนวปฏิบัติที่ดีที่สุดในการเขียนเว็บแครปเปอร์ที่สามารถบำรุงรักษาได้คืออะไร?
ฉันจำเป็นต้องใช้เครื่องขูดสองสามตัวเพื่อรวบรวมข้อมูลหน้าเว็บบางหน้า (เนื่องจากไซต์ไม่มี API แบบเปิด) แยกข้อมูลและบันทึกลงในฐานข้อมูล ขณะนี้ฉันกำลังใช้ซุปที่สวยงามเพื่อเขียนโค้ดดังนี้: discount_price_text = soup.select("#detail-main...
1906 มุมมอง
schedule 28.12.2023

HTML DOM อย่างง่ายส่งคืน NULL
ฉันกำลังดึงข้อมูลจากเว็บไซต์โดยใช้ตัวแยกวิเคราะห์ HTML DOM อย่างง่าย ( http://simplehtmldom.sourceforge.net/ ) HTML คือ: <tr class="productListing-odd"> <td align="right"...
1545 มุมมอง
schedule 03.11.2023

Rake Tasks ใน Ruby on Rails จะหยุดลงเมื่อการเชื่อมต่อเซสชันเทอร์มินัลสิ้นสุดลง
ฉันใช้เทอร์มินัล SSH ปกติเพื่อรันงานเรค (เช่น การขูดเว็บ) ในโฟลเดอร์ /myapp/lib/tasks/ ของฉัน โค้ดอยู่ในคลาวด์บนเซิร์ฟเวอร์ Amazon EC2 งานเรคทำงานได้ดี แต่สมมติว่าถ้าคอมพิวเตอร์ของฉันปิดตัวลง เซสชันเทอร์มินัล SSH ก็หยุดทำงานเช่นกัน...
550 มุมมอง

หลีกเลี่ยงการถูกแบนบนไซต์โดยใช้ scrapy
ฉันกำลังพยายามดาวน์โหลดข้อมูลจาก gsmarena โค้ดตัวอย่างในการดาวน์โหลดข้อมูลจำเพาะ HTC one me มาจากไซต์ต่อไปนี้ " http://www.gsmarena.com/htc_one_me-7275.php " ตามที่กล่าวไว้ด้านล่าง: ข้อมูลบนเว็บไซต์จัดอยู่ในรูปแบบตารางและแถวของตาราง...
5201 มุมมอง
schedule 25.10.2023

วิธีรับราคาสินค้าทั้งหมดจากเว็บไซต์ที่มี curl
ฉันกำลังพยายามใช้ cURL เพื่อรับราคาสินค้าทั้งหมดจากไซต์นี้ แต่ฉันไม่รู้วิธีขูดราคาทั้งหมดของผลิตภัณฑ์ทุกชิ้นบนเว็บไซต์นี้ http://www.bikestore.ie/ . ใครช่วยกรุณาให้คำแนะนำแก่ฉันหน่อยได้ไหม?...
1441 มุมมอง
schedule 25.10.2023

จะเข้าสู่ระบบผ่าน jsoup ได้อย่างไรในกรณีที่มีป๊อปอัป
ฉันกำลังทำงานกับแอปพลิเคชันที่ต้องเข้าสู่ระบบผ่านป๊อปอัปใน jsoup นี่คือเพจ หลังจากเปิดมองหา หากคุณเป็นสมาชิก Nebraska.gov โปรดเข้าสู่ระบบ ฉันไม่รู้ว่าจะต้องให้อะไรตามคำขอโพสต์ใน jsoup นี่คือสิ่งที่ฉันได้ทำไปแล้ว String url =...
840 มุมมอง
schedule 24.11.2023

ไม่สามารถโหลดทั้งหน้าโดยใช้ไดรเวอร์ Selenium PhantomJs
ฉันใช้ไลบรารี Selenium ใน Java เพื่อทำลายไซต์ ฉันใช้ PhantomJsDriver เป็น webdriver ไซต์นี้มี URL บางส่วนอยู่ในแท็ก list(li) ที่ฉันสนใจ ปัญหาคือไซต์มีองค์ประกอบ 64 (li) แต่ ฉันได้รับองค์ประกอบเพียง 16 (li) นี่คือรหัสของฉัน: DesiredCapabilities...
684 มุมมอง

แยกจากการตอบสนอง JSON แบบไดนามิกด้วย Scrapy
ฉันต้องการแยกค่า 'avail' ออกจากเอาต์พุต JSON ที่มีลักษณะเช่นนี้ { "result": { "code": 100, "message": "Command Successful" }, "domains": { "yolotaxpayers.com": { "avail": false, "tld":...
472 มุมมอง
schedule 20.12.2023

วิธีรับ src รูปภาพที่มองเห็นได้ในปัจจุบันเพื่อกรอกแบบฟอร์มของฉัน
ในแอป Rails ของฉัน ในรูปแบบของการสร้างโพสต์ใหม่ ฉันใช้ Metainspector เพื่อคัดลอกลิงก์และรับรูปภาพของเว็บไซต์ที่ให้มา การตอบสนองอยู่ใน ajax จากนั้นฉันใช้สคริปต์ที่แสดงเพียงภาพเดียวของรายการที่ส่งคืน มีปุ่มก่อนหน้าและถัดไปเพื่อวนซ้ำ ฉันต้องการให้...
59 มุมมอง

Python (BeautifulSoup) - For Loop ส่งคืนผลลัพธ์ทั้งหมดสำหรับหนึ่ง div แทนที่จะเป็นค่าเดียวที่คาดไว้
ฉันกำลังสร้างที่ขูดสุขอนามัยอาหาร ฉันมาถึงจุดที่สามารถรับชื่อและที่อยู่ของร้านอาหารทั้งหมดได้สำเร็จตามรหัสไปรษณีย์ที่ผู้ใช้ป้อน ฉันได้พยายามให้แสดงค่าระดับสุขอนามัยอาหารสำหรับผลลัพธ์แต่ละรายการด้วย ค่านี้จะถูกจัดเก็บไว้บนหน้าเว็บด้วยวิธีต่อไปนี้:...
256 มุมมอง

แยกค่าตัวเลขโดยไม่มี class id ใน html โดยใช้ BeautifulSoup ใน python
ฉันต้องการแยกมูลค่าของ "จำนวนประชากรรหัสไปรษณีย์โดยประมาณในปี 2558" จากเว็บไซต์ข้อมูลเมืองสำหรับบางภูมิภาค ( http://www.city-data.com/zips/17033.html ) ฉันใช้บิวตี้ซุปเพื่อดึงคุณค่าออกมา แต่ก็ทำไม่สำเร็จ ปัญหาคือเนื่องจากไม่มีรหัสคลาสที่เกี่ยวข้อง...
244 มุมมอง

ไม่สามารถสร้างแผ่นงานที่แตกต่างกันในไฟล์ Excel สำหรับลิงก์ที่แตกต่างกันได้
ฉันได้เขียนสคริปต์ด้วยภาษาไพธอนเพื่อแยกวิเคราะห์บทช่วยสอนต่างๆ tiles และ links บางส่วนจากหน้าเว็บ และสุดท้ายก็เขียนบทช่วยสอนเหล่านั้นลงในไฟล์ Excel ฉันเคยใช้ openpyxl สคริปต์ของฉันทำงานได้ดีหากฉันต้องการรับเอกสารทั้งหมดในแผ่นงานเดียว...
90 มุมมอง
schedule 01.12.2023

กรอกแบบฟอร์ม HTML จากเซิร์ฟเวอร์ Node.js
ฉันต้องการกรอกข้อมูลในช่องป้อนข้อมูลของแบบฟอร์ม HTML ส่งและดึงข้อมูลเนื้อหาของหน้า ฉันพบโมดูลชื่อ form-scraper แต่โค้ดของฉันแสดงข้อผิดพลาดนี้: ไม่สามารถอ่านคุณสมบัติ 'get' ของไม่ได้กำหนดที่ Function.get...
765 มุมมอง
schedule 18.11.2023

ตัวเลือก Bs4: ขูดอเมซอนโดยใช้ซุปที่สวยงาม
ฉันกำลังพยายามขูดไซต์ที่มีลิงก์ไปยัง Amazon ด้วย Python โดยใช้เฟรมเวิร์กเหล่านี้ - ซีลีเนียม ซุปที่สวยงาม เป้าหมายของฉันคือการขูดรายละเอียดผลิตภัณฑ์ของ Amazon ต่อไปนี้ -> ชื่อ ราคา คำอธิบาย รีวิวครั้งแรก...
2241 มุมมอง
schedule 12.12.2023

จะกำจัดรายชื่อผู้เล่นตัวจริงของ NBA ได้อย่างไร?
ฉันยังใหม่กับการขูดเว็บและอาจช่วยได้บ้าง ฉันต้องการขูดรายชื่อผู้เล่นตัวจริงของ NBA ทีม และตำแหน่งของผู้เล่นโดยใช้ Xpath ฉันแค่เริ่มต้นด้วยชื่อเพราะฉันประสบปัญหา นี่คือรหัสของฉันจนถึงตอนนี้: from urllib.request import urlopen from lxml.html...
567 มุมมอง
schedule 26.10.2023

Web Scraping - ราคาหุ้น quandl
ฉันมีคำถามด่วน รหัสของฉันมีลักษณะดังนี้: import quandl names_of_company = ['KGHM','INDYKPOL','KRUK','KRUSZWICA'] for names in names_of_company: x = quandl.get('WSE/{names_of_company}', start_date='2018-11-26', end_date='2018-11-29')...
114 มุมมอง
schedule 19.11.2023

โจทย์การหาธาตุตามคลาสกับน้ำซุปสวยๆ
กำลังพยายามดึงชื่อกิจกรรมในเพจนี้โดยใช้ซุปสวยๆ 4 : https://www.orbitxch.com/customer/sport/1 ฉันพยายามกรองโค้ด html สำหรับแท็กที่มี class="biab_item-link biab_market-link js-event-link biab_has-time"...
137 มุมมอง
schedule 02.11.2023