สิ่งตีพิมพ์ในหัวข้อ 'text-processing'
การแตกรากและการแบ่งคำย่อ—NLP
การกั้น
การกั้นคำเป็นกระบวนการลดคำลงจนได้คำต้นกำเนิด/ฐาน มันตัดตัวอักษรออกจากตอนท้าย ขณะค้นหาคำสำคัญเฉพาะ ระบบจะส่งกลับคำบางรูปแบบจากเอกสาร
ตัวอย่าง: ค้นหาคำว่า 'เรือ', ส่งกลับเรือ, คนพายเรือ, พายเรือ ฯลฯ
ที่นี่คำต้นกำเนิดคือเรือและคำต่อท้ายจะถูกลบออกจนกว่าจะถึงคำต้นกำเนิด
สเตมเมอร์มี 2 ประเภท:
พอร์เตอร์ สตีมเมอร์ สโนว์บอล สเต็มเมอร์
พอร์เตอร์ สตีมเมอร์:
หนึ่งในเครื่องมือสกัดกั้นที่ใช้กันทั่วไปและมีประสิทธิภาพที่สุด ผ่านการลดคำห้าขั้นตอน
from nltk.stem.porter import..
คำถามในหัวข้อ 'text-processing'
Fuzzy Regex, การประมวลผลข้อความ, การวิเคราะห์คำศัพท์?
ฉันไม่แน่ใจว่าต้องค้นหาคำศัพท์อะไร ดังนั้นชื่อของฉันจึงดูเก๋ไก๋... นี่คือขั้นตอนการทำงานที่ฉันมี:
เอกสารกึ่งโครงสร้างจะถูกสแกนเป็นไฟล์ ไฟล์ต่างๆ จะถูก OCR เป็นข้อความ
ข้อความถูกแยกวิเคราะห์เป็นวัตถุ Python
อ็อบเจ็กต์ถูกทำให้เป็นอนุกรม...
387 มุมมอง
schedule
30.10.2023
Python: PyEnchant และ Python 64 บิต
ฉันกำลังประมวลผลข้อความ ฉันต้องการไลบรารี PyEnchant เพื่อตรวจสอบว่าคำใดคำหนึ่งในข้อความเป็นคำภาษาอังกฤษที่ถูกต้องหรือไม่ อย่างไรก็ตาม ใช้ได้เฉพาะกับการติดตั้ง Python แบบ 32 บิตเท่านั้น ฉันต้องการ Python 64...
2787 มุมมอง
schedule
12.01.2024
ฉันจะประมวลผลข้อความภาษาเปอร์เซียโดยใช้ Rapid Miner ได้อย่างไร
ฉันกำลังทำโครงการจำแนกประเภทเปอร์เซีย ข้อความเปอร์เซียมีความคล้ายคลึงกับข้อความภาษาอาหรับมาก เมื่อฉันใช้ Tokenize มันจะไม่แสดงคำใดๆ ในหน้ารายการคำศัพท์ และในหน้าชุดตัวอย่าง รูปภาพด้านล่างจะแสดง:
ฉันต้องจัดประเภทข้อความเปอร์เซียเป็นบางหมวดหมู่...
109 มุมมอง
schedule
28.10.2023
จะพิมพ์บล็อกทั้งหมดได้อย่างไรหากมีบรรทัดเฉพาะพร้อมคำสั่ง awk
ฉันกำลังพยายามประมวลผลข้อมูลเครือข่ายจาก lshw -c network ด้วยคำสั่ง awk
ผลลัพธ์จะมีลักษณะดังนี้:-
*-network:3
description: Ethernet interface
product: I350 Gigabit Network Connection
vendor: Intel Corporation
physical id: 0.3...
93 มุมมอง
schedule
17.01.2024