Я знаю, что могу извлечь английские буквы и цифры, используя регулярное выражение A-Za-z0-9
.
Как я могу извлечь слова из других языков, таких как арабский, и разрешить только буквы и цифры в их сценарии и ничего больше?
Один из способов, который я использовал, - отфильтровать все, что мне не нужно, из текста, и тогда у меня останутся только слова, но этот подход требует много процессорного времени и неэффективен для крупномасштабных приложений.
Теперь мне было интересно, какие еще методы использовались или кто-то знает, что можно использовать для анализа текста на других языках.
Как можно извлечь слова из таких языков, как китайский, японский и т. д., в которых даже не используются пробелы между словами? Один из подходов, который я использовал для различения слов, заключается в том, чтобы рассматривать стили и разрывы строк как способ понять, что они должны быть разными произведениями, но иногда этот подход может быть ненадежным, когда люди не используют много разрывов строк или форматирования для разделения разных слов. слова.
Итак, подводя итог, как можно анализировать другие языки с помощью регулярных выражений?