Saya sedang membangun model pembelajaran mesin yang akan memproses dokumen dan mengekstrak beberapa informasi penting darinya. Untuk ini, saya perlu menggunakan penyematan kata untuk keluaran OCRed. Saya memiliki beberapa opsi berbeda untuk penyematan (Google word2vec, Stanford, FastText Facebook) tetapi perhatian utama saya adalah kata-kata OOV, karena keluaran OCR akan memiliki banyak kata yang salah eja. Misalnya, saya ingin penyematan sedemikian rupa sehingga keluaran untuk Penyematan dan Penyematan (yang dilewatkan oleh OCR) harus memiliki tingkat kesamaan tertentu. Saya tidak terlalu peduli dengan informasi kontekstual terkait.
Saya memilih FastText Facebook karena memberikan penyematan untuk kata-kata OOV juga. Satu-satunya kekhawatiran saya adalah ukuran embeddingsnya. Ukuran vektor model FastText adalah panjang 300. Apakah ada cara untuk mengurangi ukuran vektor kata yang dikembalikan (Saya berpikir untuk menggunakan PCA atau teknik reduksi dimensi lainnya, tetapi mengingat ukuran vektor kata, itu bisa jadi tugas yang memakan waktu)?