แยกวิเคราะห์ docx ด้วยการเข้ารหัสใน php.ini

โอเค ฉันมีไฟล์ docx ที่เต็มไปด้วยข้อความ (เฉพาะข้อความ) และฉันต้องการแยกวิเคราะห์ด้วยวิธีที่เฉพาะเจาะจงมาก โปรดทราบว่าใช้อักขระพิเศษจากภาษาละตินเซอร์เบีย เช่น ŠДŽĆč

นี่คือสิ่งที่ฉันพยายามทำ: 1) นำแต่ละคำออกจากข้อความ โดยไม่สนใจคำที่มีตัวอักษร 1 คำ 2) หากมันถูกเข้ารหัสด้วยอักขระพิเศษ (เช่น Šovek) ให้สร้างสองเวอร์ชัน หนึ่งคือ "Šovek" และอีกเวอร์ชันหนึ่งคือ "Covek " (อันที่มีอักขระพิเศษและไม่มีอันหนึ่ง) 3) บันทึกทั้งสองรายการไว้ในตารางใต้คอลัมน์ที่เหมาะสม (กำหนดโดยตัวอักษรตัวแรกของคำ ดังนั้น C สำหรับ Covek และ Š สำหรับ Šovek นี่เป็นเพียงในกรณีที่ยังไม่ได้ทำ มีอยู่จริง หากพวกเขาข้ามไป

แค่นั้นแหละ. มีไฟล์อยู่ มีโครงสร้างตารางอยู่ ฉันไม่รู้ว่าจะแยกวิเคราะห์มันอย่างไร

ขอบคุณ!


person Predrag Beocanin    schedule 03.10.2013    source แหล่งที่มา
comment
อาจซ้ำกันของ stackoverflow.com/questions/16105818 / มีตัวเลือกที่แนะนำอยู่สองสามตัวเลือก   -  person Denis    schedule 03.10.2013
comment
อย่างไรก็ตาม อาจเป็นไปได้ที่จะมีการพิจารณาแยกวิเคราะห์ไฟล์ docx บางทีฉันอาจอธิบายปัญหาของฉันได้ไม่ดีนัก ดังนั้น: 1) ฉันใช้ pdf และทำ OCR ด้วย Abby FineReader ดังนั้นฉันจึงสามารถมีเอาต์พุตใด ๆ (doc, docs, txt) ที่มีอักขระพิเศษ 2) ฉันไม่รู้วิธีแยกวิเคราะห์ข้อความทีละคำ 3) ฉันไม่รู้วิธีจัดการการเข้ารหัส เพื่อสร้าง 2 คำจาก 1 เมื่อจำเป็น 4) ฉันไม่รู้วิธีแทรกไว้ใต้คอลัมน์ที่เหมาะสมใน ตารางที่ 5) ฉันมีความคิดที่จะตรวจสอบว่าคำนั้นมีอยู่แล้วหรือไม่ หวังว่าจะช่วยได้!   -  person Predrag Beocanin    schedule 04.10.2013