สิ่งพิมพ์ตามแท็ก text-processing

สิ่งตีพิมพ์ในหัวข้อ 'text-processing'

การแตกรากและการแบ่งคำย่อ—NLP

การกั้น การกั้นคำเป็นกระบวนการลดคำลงจนได้คำต้นกำเนิด/ฐาน มันตัดตัวอักษรออกจากตอนท้าย ขณะค้นหาคำสำคัญเฉพาะ ระบบจะส่งกลับคำบางรูปแบบจากเอกสาร ตัวอย่าง: ค้นหาคำว่า 'เรือ', ส่งกลับเรือ, คนพายเรือ, พายเรือ ฯลฯ ที่นี่คำต้นกำเนิดคือเรือและคำต่อท้ายจะถูกลบออกจนกว่าจะถึงคำต้นกำเนิด สเตมเมอร์มี 2 ประเภท: พอร์เตอร์ สตีมเมอร์ สโนว์บอล สเต็มเมอร์ พอร์เตอร์ สตีมเมอร์: หนึ่งในเครื่องมือสกัดกั้นที่ใช้กันทั่วไปและมีประสิทธิภาพที่สุด ผ่านการลดคำห้าขั้นตอน from nltk.stem.porter import..

คำถามในหัวข้อ 'text-processing'

Fuzzy Regex, การประมวลผลข้อความ, การวิเคราะห์คำศัพท์?

ฉันไม่แน่ใจว่าต้องค้นหาคำศัพท์อะไร ดังนั้นชื่อของฉันจึงดูเก๋ไก๋... นี่คือขั้นตอนการทำงานที่ฉันมี: เอกสารกึ่งโครงสร้างจะถูกสแกนเป็นไฟล์ ไฟล์ต่างๆ จะถูก OCR เป็นข้อความ ข้อความถูกแยกวิเคราะห์เป็นวัตถุ Python อ็อบเจ็กต์ถูกทำให้เป็นอนุกรม...

387 มุมมอง

python regex text-processing

30.10.2023

Python: PyEnchant และ Python 64 บิต

ฉันกำลังประมวลผลข้อความ ฉันต้องการไลบรารี PyEnchant เพื่อตรวจสอบว่าคำใดคำหนึ่งในข้อความเป็นคำภาษาอังกฤษที่ถูกต้องหรือไม่ อย่างไรก็ตาม ใช้ได้เฉพาะกับการติดตั้ง Python แบบ 32 บิตเท่านั้น ฉันต้องการ Python 64...

2787 มุมมอง

python text-processing pyenchant

12.01.2024

ฉันจะประมวลผลข้อความภาษาเปอร์เซียโดยใช้ Rapid Miner ได้อย่างไร

ฉันกำลังทำโครงการจำแนกประเภทเปอร์เซีย ข้อความเปอร์เซียมีความคล้ายคลึงกับข้อความภาษาอาหรับมาก เมื่อฉันใช้ Tokenize มันจะไม่แสดงคำใดๆ ในหน้ารายการคำศัพท์ และในหน้าชุดตัวอย่าง รูปภาพด้านล่างจะแสดง: ฉันต้องจัดประเภทข้อความเปอร์เซียเป็นบางหมวดหมู่...

109 มุมมอง

classification text-classification text-processing rapidminer

28.10.2023

จะพิมพ์บล็อกทั้งหมดได้อย่างไรหากมีบรรทัดเฉพาะพร้อมคำสั่ง awk

ฉันกำลังพยายามประมวลผลข้อมูลเครือข่ายจาก lshw -c network ด้วยคำสั่ง awk ผลลัพธ์จะมีลักษณะดังนี้:- *-network:3 description: Ethernet interface product: I350 Gigabit Network Connection vendor: Intel Corporation physical id: 0.3...

93 มุมมอง

awk text-processing

17.01.2024