Я создаю модель машинного обучения, которая будет обрабатывать документы и извлекать из них ключевую информацию. Для этого мне нужно использовать встраивание слов для вывода OCRed. У меня есть несколько разных вариантов встраивания (Google word2vec, Stanford, Facebook FastText), но меня больше всего беспокоят слова OOV, так как на выходе OCR будет много слов с ошибками. Например, я хочу, чтобы встраивание было таким, чтобы выходные данные для встраивания и встраивания (e, пропущенные OCR) имели определенный уровень сходства. Меня не очень волнует связанная с этим контекстная информация.
Я выбрал FastText от Facebook, так как он также дает вложения для слов OOV. Меня беспокоит только размер вложений. Размер вектора модели FastText имеет длину 300. Есть ли способ уменьшить размер возвращаемого вектора слова (я думаю об использовании PCA или любого другого метода уменьшения размерности, но, учитывая размер векторов слов, это может быть трудоемкая задача)?