ฉันกำลังสร้างโมเดลแมชชีนเลิร์นนิงซึ่งจะประมวลผลเอกสารและดึงข้อมูลสำคัญบางส่วนจากโมเดลดังกล่าว สำหรับสิ่งนี้ ฉันต้องใช้การฝังคำสำหรับเอาต์พุต OCRed ฉันมีตัวเลือกต่างๆ มากมายสำหรับการฝัง (word2vec ของ Google, Stanford's, FastText ของ Facebook) แต่ข้อกังวลหลักของฉันคือคำ OOV เนื่องจากเอาต์พุต OCR จะมีคำที่สะกดผิดจำนวนมาก ตัวอย่างเช่น ฉันต้องการการฝังโดยที่เอาต์พุตสำหรับ การฝัง และ การฝัง (OCR ที่พลาดไป) ควรมีความคล้ายคลึงกันในระดับหนึ่ง ฉันไม่สนใจข้อมูลบริบทที่เกี่ยวข้องมากนัก
ฉันเลือก FastText ของ Facebook เนื่องจากมีการฝังคำ OOV ด้วยเช่นกัน ความกังวลเดียวของฉันคือขนาดของการฝัง ขนาดเวกเตอร์ของโมเดล FastText มีความยาว 300 มีวิธีลดขนาดของเวกเตอร์คำที่ส่งคืนหรือไม่ (ฉันกำลังคิดที่จะใช้ PCA หรือเทคนิคการลดขนาดอื่น ๆ แต่เมื่อพิจารณาจากขนาดของเวกเตอร์คำ ก็สามารถเป็นได้ งานที่ใช้เวลานาน)?