สิ่งตีพิมพ์ในหัวข้อ 'text-processing'


การแตกรากและการแบ่งคำย่อ—NLP
การกั้น การกั้นคำเป็นกระบวนการลดคำลงจนได้คำต้นกำเนิด/ฐาน มันตัดตัวอักษรออกจากตอนท้าย ขณะค้นหาคำสำคัญเฉพาะ ระบบจะส่งกลับคำบางรูปแบบจากเอกสาร ตัวอย่าง: ค้นหาคำว่า 'เรือ', ส่งกลับเรือ, คนพายเรือ, พายเรือ ฯลฯ ที่นี่คำต้นกำเนิดคือเรือและคำต่อท้ายจะถูกลบออกจนกว่าจะถึงคำต้นกำเนิด สเตมเมอร์มี 2 ประเภท: พอร์เตอร์ สตีมเมอร์ สโนว์บอล สเต็มเมอร์ พอร์เตอร์ สตีมเมอร์: หนึ่งในเครื่องมือสกัดกั้นที่ใช้กันทั่วไปและมีประสิทธิภาพที่สุด ผ่านการลดคำห้าขั้นตอน from nltk.stem.porter import..

คำถามในหัวข้อ 'text-processing'

Fuzzy Regex, การประมวลผลข้อความ, การวิเคราะห์คำศัพท์?
ฉันไม่แน่ใจว่าต้องค้นหาคำศัพท์อะไร ดังนั้นชื่อของฉันจึงดูเก๋ไก๋... นี่คือขั้นตอนการทำงานที่ฉันมี: เอกสารกึ่งโครงสร้างจะถูกสแกนเป็นไฟล์ ไฟล์ต่างๆ จะถูก OCR เป็นข้อความ ข้อความถูกแยกวิเคราะห์เป็นวัตถุ Python อ็อบเจ็กต์ถูกทำให้เป็นอนุกรม...
387 มุมมอง
schedule 30.10.2023

Python: PyEnchant และ Python 64 บิต
ฉันกำลังประมวลผลข้อความ ฉันต้องการไลบรารี PyEnchant เพื่อตรวจสอบว่าคำใดคำหนึ่งในข้อความเป็นคำภาษาอังกฤษที่ถูกต้องหรือไม่ อย่างไรก็ตาม ใช้ได้เฉพาะกับการติดตั้ง Python แบบ 32 บิตเท่านั้น ฉันต้องการ Python 64...
2787 มุมมอง
schedule 12.01.2024

ฉันจะประมวลผลข้อความภาษาเปอร์เซียโดยใช้ Rapid Miner ได้อย่างไร
ฉันกำลังทำโครงการจำแนกประเภทเปอร์เซีย ข้อความเปอร์เซียมีความคล้ายคลึงกับข้อความภาษาอาหรับมาก เมื่อฉันใช้ Tokenize มันจะไม่แสดงคำใดๆ ในหน้ารายการคำศัพท์ และในหน้าชุดตัวอย่าง รูปภาพด้านล่างจะแสดง: ฉันต้องจัดประเภทข้อความเปอร์เซียเป็นบางหมวดหมู่...
109 มุมมอง

จะพิมพ์บล็อกทั้งหมดได้อย่างไรหากมีบรรทัดเฉพาะพร้อมคำสั่ง awk
ฉันกำลังพยายามประมวลผลข้อมูลเครือข่ายจาก lshw -c network ด้วยคำสั่ง awk ผลลัพธ์จะมีลักษณะดังนี้:- *-network:3 description: Ethernet interface product: I350 Gigabit Network Connection vendor: Intel Corporation physical id: 0.3...
93 มุมมอง
schedule 17.01.2024