สิ่งตีพิมพ์ในหัวข้อ 'web-scraping'
เครื่องมือขูดเว็บอย่างง่ายด้วย Node.js
ฉันเขียนบทความเล็กๆ นี้หลังจากที่ฉันได้ขูดเว็บง่ายๆ สำหรับไซต์ที่ฉันกำลังสร้างแล้ว ทุกอย่างเป็นพื้นฐานมาก
หมายเหตุ! เว็บไซต์บางแห่งห้ามไม่ให้ใช้เครื่องขูด ดังนั้นโปรดตรวจสอบให้แน่ใจก่อนทำการขูด และถึงแม้จะพยายามทำสิ่งนี้โดยมีผลกระทบน้อยที่สุด (การเรียกใช้ http หลายครั้งในแต่ละสองสามวินาทีอาจไม่ดีนักใช่ไหม)
การขูดเว็บคืออะไร
สมมติว่าคุณต้องการข้อมูลจากบางไซต์ เช่น รายการบทความพร้อมลิงก์และผู้แต่ง ไซต์เก่าๆ มักจะไม่มี API ที่จะช่วยเหลือคุณในงานนี้..
บทนำอย่างอ่อนโยนเกี่ยวกับการแยกข้อมูลเว็บ | ขูดด้วย 🐍
บทนำอย่างอ่อนโยนเกี่ยวกับการแยกข้อมูลเว็บ | ขูดด้วย 🐍
ข้อมูลมีอยู่ทั่วไป ข้อมูลอยู่บนเว็บ แต่เว็บคืออะไร? แล้วจะดึงข้อมูลจากมันได้อย่างไร?
โพสต์นี้เป็นบทความแรกของซีรีส์ “Scraping with Python 🐍 ” ที่ฉันตั้งใจจะอธิบายและสอนตั้งแต่แนวคิดพื้นฐานไปจนถึงขั้นสูงสุด
การแนะนำ
คุณต้องการรวบรวมข้อมูลจากเว็บแต่ไม่รู้ว่าจะเริ่มต้นอย่างไร? คุณติดตาม Scrapy startproject tutorial แล้ว แต่สไปเดอร์ของคุณยังไม่คลานเว็บใช่ไหม คุณไม่เคยได้ยินคำว่า crawling มาก่อนเลยเหรอ? เยี่ยมมาก..
การขูดเว็บด้วย Puppeteer และ Nodejs
ในบทความนี้ ฉันจะแสดงให้คุณเห็นว่าคุณสามารถทำการขูดเว็บโดยใช้ Puppeteer และ Nodejs ได้อย่างไร ในการเริ่มต้น เราต้องทำความเข้าใจก่อนว่าการขูดเว็บคืออะไร และ Puppeteer สามารถช่วยให้เราทำเช่นนั้นได้อย่างไร
การขูดเว็บ
การขูดเว็บเป็นกระบวนการดึงข้อมูลจากหน้าเว็บ มันเกี่ยวข้องกับการดึงข้อมูลหน้าเว็บแล้วดึงข้อมูลออกมา หลังจากแยกข้อมูลแล้ว คุณสามารถทำอะไรก็ได้ที่คุณต้องการด้วยข้อมูลนั้น คุณสามารถใช้สิ่งนั้นสำหรับ API หรือเก็บไว้ในไฟล์ CSV
นักเชิดหุ่น
Puppeteer เป็นไลบรารี Nodejs..
การขับรถโดยข้อมูล: การเดินทางของฉันเพื่อค้นหารถที่สมบูรณ์แบบ
โปรแกรมขูดเว็บที่เป็นนวัตกรรมใหม่เพื่อสร้างคำแนะนำเกี่ยวกับรถใช้แล้วส่วนบุคคล
เมื่อฉันลาจากวิทยาลัยสองสามวันเพื่อวันขอบคุณพระเจ้าในปี 2022 ในที่สุดฉันก็พบว่าตัวเองมีเวลาว่างที่จำเป็นมาก แม้ว่าฉันจะใช้เวลาส่วนใหญ่กับครอบครัว แต่ฉันก็ยังอยากจะเริ่มทำโปรเจ็กต์ส่วนตัวที่จะใช้ทักษะที่ฉันได้รับในภาคเรียนนั้นด้วย เมื่อฉันกำลังจะฝึกงานที่ Ericsson ในเมืองดัลลัส รัฐเท็กซัส ฉันจำเป็นต้องซื้อรถคันแรก แต่ฉันรู้เพียงเล็กน้อยเกี่ยวกับตลาดรถยนต์มือสอง..
การขูดเว็บด้วย JavaScript: คู่มือสำหรับผู้เริ่มต้น
การแนะนำ
การขูดเว็บหรือที่เรียกว่าการเก็บเกี่ยวเว็บหรือการดึงข้อมูลเว็บเป็นกระบวนการดึงข้อมูลจากเว็บไซต์โดยอัตโนมัติ ข้อมูลนี้อาจรวมถึงข้อความ รูปภาพ วิดีโอ และข้อมูลประเภทอื่นๆ ข้อมูลนี้สามารถใช้เพื่อวัตถุประสงค์ที่หลากหลาย เช่น การวิจัย การวิเคราะห์ข้อมูล การวิเคราะห์ตลาด และอื่นๆ
การขูดเว็บทำได้โดยใช้โปรแกรมซอฟต์แวร์หรือที่เรียกว่า web scraper เพื่อส่งคำขอ HTTP ไปยังเซิร์ฟเวอร์ของเว็บไซต์ จากนั้นเซิร์ฟเวอร์จะส่งโค้ด HTML สำหรับเว็บไซต์กลับมา..
XPath Helper: เครื่องมืออันทรงพลังสำหรับการดึงข้อมูลจากเว็บเพจ
เรียนรู้วิธีใช้ส่วนขยายเบราว์เซอร์ Chrome นี้เพื่อค้นหาและสร้างนิพจน์ XPath สำหรับองค์ประกอบบนหน้าเว็บได้อย่างง่ายดาย
ฉันแสดงงานขูดเว็บมากมายและสร้างรายได้ที่น่าดึงดูดมากจากงานเหล่านี้ ฉันมักจะใช้ Python ส่วนใหญ่เป็นซีลีเนียม ดังนั้นฉันจึงต้องใช้ XPATH เพื่อรับข้อมูลของฉัน
ในงานแสดงที่ดีที่สุดของฉัน ฉันมีรายได้มากกว่า 1,000 ดอลลาร์ต่อชั่วโมงตามอัตรารายชั่วโมง ไม่เคยคิดค่าใช้จ่ายเป็นชั่วโมงโดยโครงการ การ...
คำถามในหัวข้อ 'web-scraping'
ฉันจะคลิกปุ่มบนไซต์อื่นโดยทางโปรแกรมได้อย่างไร
ฉันต้องการเข้าสู่ไซต์อื่นด้วยโปรแกรมของฉัน (asp.net/C#)
ฉันจะรวบรวมข้อมูลไซต์และค้นหากล่องข้อความชื่อผู้ใช้และรหัสผ่านและกรอกข้อมูลที่จำเป็นได้อย่างไร
แล้วฉันจะกด/ยิงปุ่มเข้าสู่ระบบได้อย่างไร?
หมายเหตุ: ฉันรวบรวมข้อมูลไซต์ด้วย...
4215 มุมมอง
schedule
13.11.2023
แยกข้อมูลเดียวกันจากเอกสาร HTML ต่างๆ
สมมติว่าฉันมีหน้า HTML หลายหน้าจากเว็บไซต์ที่ไม่เกี่ยวข้อง แต่มีข้อมูลโดยรวมเหมือนกัน ฉันต้องการดึงข้อมูลนั้นในลักษณะที่ยืดหยุ่น เช่น ฉันต้องการเขียนตัวแยกข้อมูลจำนวนเล็กน้อยสำหรับทุกหน้า (ในอุดมคติแล้วคือตัวเดียว) สมมติว่าช่องต่างๆ คือ...
63 มุมมอง
schedule
20.12.2023
Node.JS ส่งคำขอผ่านเว็บพรอกซี
ฉันเขียนเครื่องมือขูดเว็บในอดีตด้วย C# เครื่องมือขูดใช้ tor เป็นพร็อกซีเซิร์ฟเวอร์และส่งคำขอเช่นนั้น:
HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://whatismyipaddress.com/");
request.Proxy = new...
755 มุมมอง
schedule
30.11.2023
แนวปฏิบัติที่ดีที่สุดในการเขียนเว็บแครปเปอร์ที่สามารถบำรุงรักษาได้คืออะไร?
ฉันจำเป็นต้องใช้เครื่องขูดสองสามตัวเพื่อรวบรวมข้อมูลหน้าเว็บบางหน้า (เนื่องจากไซต์ไม่มี API แบบเปิด) แยกข้อมูลและบันทึกลงในฐานข้อมูล ขณะนี้ฉันกำลังใช้ซุปที่สวยงามเพื่อเขียนโค้ดดังนี้:
discount_price_text = soup.select("#detail-main...
1906 มุมมอง
schedule
28.12.2023
HTML DOM อย่างง่ายส่งคืน NULL
ฉันกำลังดึงข้อมูลจากเว็บไซต์โดยใช้ตัวแยกวิเคราะห์ HTML DOM อย่างง่าย ( http://simplehtmldom.sourceforge.net/ )
HTML คือ:
<tr class="productListing-odd">
<td align="right"...
1545 มุมมอง
schedule
03.11.2023
Rake Tasks ใน Ruby on Rails จะหยุดลงเมื่อการเชื่อมต่อเซสชันเทอร์มินัลสิ้นสุดลง
ฉันใช้เทอร์มินัล SSH ปกติเพื่อรันงานเรค (เช่น การขูดเว็บ) ในโฟลเดอร์ /myapp/lib/tasks/ ของฉัน โค้ดอยู่ในคลาวด์บนเซิร์ฟเวอร์ Amazon EC2
งานเรคทำงานได้ดี แต่สมมติว่าถ้าคอมพิวเตอร์ของฉันปิดตัวลง เซสชันเทอร์มินัล SSH ก็หยุดทำงานเช่นกัน...
550 มุมมอง
schedule
23.12.2023
หลีกเลี่ยงการถูกแบนบนไซต์โดยใช้ scrapy
ฉันกำลังพยายามดาวน์โหลดข้อมูลจาก gsmarena โค้ดตัวอย่างในการดาวน์โหลดข้อมูลจำเพาะ HTC one me มาจากไซต์ต่อไปนี้ " http://www.gsmarena.com/htc_one_me-7275.php " ตามที่กล่าวไว้ด้านล่าง:
ข้อมูลบนเว็บไซต์จัดอยู่ในรูปแบบตารางและแถวของตาราง...
5201 มุมมอง
schedule
25.10.2023
วิธีรับราคาสินค้าทั้งหมดจากเว็บไซต์ที่มี curl
ฉันกำลังพยายามใช้ cURL เพื่อรับราคาสินค้าทั้งหมดจากไซต์นี้ แต่ฉันไม่รู้วิธีขูดราคาทั้งหมดของผลิตภัณฑ์ทุกชิ้นบนเว็บไซต์นี้ http://www.bikestore.ie/ .
ใครช่วยกรุณาให้คำแนะนำแก่ฉันหน่อยได้ไหม?...
1441 มุมมอง
schedule
25.10.2023
จะเข้าสู่ระบบผ่าน jsoup ได้อย่างไรในกรณีที่มีป๊อปอัป
ฉันกำลังทำงานกับแอปพลิเคชันที่ต้องเข้าสู่ระบบผ่านป๊อปอัปใน jsoup
นี่คือเพจ หลังจากเปิดมองหา หากคุณเป็นสมาชิก Nebraska.gov โปรดเข้าสู่ระบบ
ฉันไม่รู้ว่าจะต้องให้อะไรตามคำขอโพสต์ใน jsoup
นี่คือสิ่งที่ฉันได้ทำไปแล้ว
String url =...
840 มุมมอง
schedule
24.11.2023
ไม่สามารถโหลดทั้งหน้าโดยใช้ไดรเวอร์ Selenium PhantomJs
ฉันใช้ไลบรารี Selenium ใน Java เพื่อทำลายไซต์ ฉันใช้ PhantomJsDriver เป็น webdriver ไซต์นี้มี URL บางส่วนอยู่ในแท็ก list(li) ที่ฉันสนใจ ปัญหาคือไซต์มีองค์ประกอบ 64 (li) แต่ ฉันได้รับองค์ประกอบเพียง 16 (li) นี่คือรหัสของฉัน:
DesiredCapabilities...
684 มุมมอง
schedule
02.01.2024
แยกจากการตอบสนอง JSON แบบไดนามิกด้วย Scrapy
ฉันต้องการแยกค่า 'avail' ออกจากเอาต์พุต JSON ที่มีลักษณะเช่นนี้
{
"result": {
"code": 100,
"message": "Command Successful"
},
"domains": {
"yolotaxpayers.com": {
"avail": false,
"tld":...
472 มุมมอง
schedule
20.12.2023
วิธีรับ src รูปภาพที่มองเห็นได้ในปัจจุบันเพื่อกรอกแบบฟอร์มของฉัน
ในแอป Rails ของฉัน ในรูปแบบของการสร้างโพสต์ใหม่ ฉันใช้ Metainspector เพื่อคัดลอกลิงก์และรับรูปภาพของเว็บไซต์ที่ให้มา
การตอบสนองอยู่ใน ajax จากนั้นฉันใช้สคริปต์ที่แสดงเพียงภาพเดียวของรายการที่ส่งคืน มีปุ่มก่อนหน้าและถัดไปเพื่อวนซ้ำ ฉันต้องการให้...
59 มุมมอง
schedule
13.01.2024
Python (BeautifulSoup) - For Loop ส่งคืนผลลัพธ์ทั้งหมดสำหรับหนึ่ง div แทนที่จะเป็นค่าเดียวที่คาดไว้
ฉันกำลังสร้างที่ขูดสุขอนามัยอาหาร ฉันมาถึงจุดที่สามารถรับชื่อและที่อยู่ของร้านอาหารทั้งหมดได้สำเร็จตามรหัสไปรษณีย์ที่ผู้ใช้ป้อน ฉันได้พยายามให้แสดงค่าระดับสุขอนามัยอาหารสำหรับผลลัพธ์แต่ละรายการด้วย
ค่านี้จะถูกจัดเก็บไว้บนหน้าเว็บด้วยวิธีต่อไปนี้:...
256 มุมมอง
schedule
14.12.2023
แยกค่าตัวเลขโดยไม่มี class id ใน html โดยใช้ BeautifulSoup ใน python
ฉันต้องการแยกมูลค่าของ "จำนวนประชากรรหัสไปรษณีย์โดยประมาณในปี 2558" จากเว็บไซต์ข้อมูลเมืองสำหรับบางภูมิภาค ( http://www.city-data.com/zips/17033.html ) ฉันใช้บิวตี้ซุปเพื่อดึงคุณค่าออกมา แต่ก็ทำไม่สำเร็จ
ปัญหาคือเนื่องจากไม่มีรหัสคลาสที่เกี่ยวข้อง...
244 มุมมอง
schedule
27.12.2023
ไม่สามารถสร้างแผ่นงานที่แตกต่างกันในไฟล์ Excel สำหรับลิงก์ที่แตกต่างกันได้
ฉันได้เขียนสคริปต์ด้วยภาษาไพธอนเพื่อแยกวิเคราะห์บทช่วยสอนต่างๆ tiles และ links บางส่วนจากหน้าเว็บ และสุดท้ายก็เขียนบทช่วยสอนเหล่านั้นลงในไฟล์ Excel ฉันเคยใช้ openpyxl สคริปต์ของฉันทำงานได้ดีหากฉันต้องการรับเอกสารทั้งหมดในแผ่นงานเดียว...
90 มุมมอง
schedule
01.12.2023
กรอกแบบฟอร์ม HTML จากเซิร์ฟเวอร์ Node.js
ฉันต้องการกรอกข้อมูลในช่องป้อนข้อมูลของแบบฟอร์ม HTML ส่งและดึงข้อมูลเนื้อหาของหน้า ฉันพบโมดูลชื่อ form-scraper แต่โค้ดของฉันแสดงข้อผิดพลาดนี้:
ไม่สามารถอ่านคุณสมบัติ 'get' ของไม่ได้กำหนดที่ Function.get...
765 มุมมอง
schedule
18.11.2023
ตัวเลือก Bs4: ขูดอเมซอนโดยใช้ซุปที่สวยงาม
ฉันกำลังพยายามขูดไซต์ที่มีลิงก์ไปยัง Amazon ด้วย Python โดยใช้เฟรมเวิร์กเหล่านี้ - ซีลีเนียม ซุปที่สวยงาม
เป้าหมายของฉันคือการขูดรายละเอียดผลิตภัณฑ์ของ Amazon ต่อไปนี้ -> ชื่อ ราคา คำอธิบาย รีวิวครั้งแรก...
2241 มุมมอง
schedule
12.12.2023
จะกำจัดรายชื่อผู้เล่นตัวจริงของ NBA ได้อย่างไร?
ฉันยังใหม่กับการขูดเว็บและอาจช่วยได้บ้าง ฉันต้องการขูดรายชื่อผู้เล่นตัวจริงของ NBA ทีม และตำแหน่งของผู้เล่นโดยใช้ Xpath ฉันแค่เริ่มต้นด้วยชื่อเพราะฉันประสบปัญหา
นี่คือรหัสของฉันจนถึงตอนนี้:
from urllib.request import urlopen
from lxml.html...
567 มุมมอง
schedule
26.10.2023
Web Scraping - ราคาหุ้น quandl
ฉันมีคำถามด่วน รหัสของฉันมีลักษณะดังนี้:
import quandl
names_of_company = ['KGHM','INDYKPOL','KRUK','KRUSZWICA']
for names in names_of_company:
x = quandl.get('WSE/{names_of_company}', start_date='2018-11-26',
end_date='2018-11-29')...
114 มุมมอง
schedule
19.11.2023
โจทย์การหาธาตุตามคลาสกับน้ำซุปสวยๆ
กำลังพยายามดึงชื่อกิจกรรมในเพจนี้โดยใช้ซุปสวยๆ 4 : https://www.orbitxch.com/customer/sport/1
ฉันพยายามกรองโค้ด html สำหรับแท็กที่มี class="biab_item-link biab_market-link js-event-link biab_has-time"...
137 มุมมอง
schedule
02.11.2023