โอเค ฉันมีไฟล์ docx ที่เต็มไปด้วยข้อความ (เฉพาะข้อความ) และฉันต้องการแยกวิเคราะห์ด้วยวิธีที่เฉพาะเจาะจงมาก โปรดทราบว่าใช้อักขระพิเศษจากภาษาละตินเซอร์เบีย เช่น ŠДŽĆč
นี่คือสิ่งที่ฉันพยายามทำ: 1) นำแต่ละคำออกจากข้อความ โดยไม่สนใจคำที่มีตัวอักษร 1 คำ 2) หากมันถูกเข้ารหัสด้วยอักขระพิเศษ (เช่น Šovek) ให้สร้างสองเวอร์ชัน หนึ่งคือ "Šovek" และอีกเวอร์ชันหนึ่งคือ "Covek " (อันที่มีอักขระพิเศษและไม่มีอันหนึ่ง) 3) บันทึกทั้งสองรายการไว้ในตารางใต้คอลัมน์ที่เหมาะสม (กำหนดโดยตัวอักษรตัวแรกของคำ ดังนั้น C สำหรับ Covek และ Š สำหรับ Šovek นี่เป็นเพียงในกรณีที่ยังไม่ได้ทำ มีอยู่จริง หากพวกเขาข้ามไป
แค่นั้นแหละ. มีไฟล์อยู่ มีโครงสร้างตารางอยู่ ฉันไม่รู้ว่าจะแยกวิเคราะห์มันอย่างไร
ขอบคุณ!