#0to1 в НЛП. Эпизод-1: Введение и библиотеки НЛП

Что такое естественный язык?

Естественный язык — это просто человеческий язык, такой как английский, французский и т. д., тогда как компьютерные языки включают C, Python и многие другие. Машинные языки были созданы для конкретных целей, в отличие от естественных языков, которые развивались с годами для удобства. Хотя естественный язык следует определенным грамматическим правилам, он не ограничен какими-либо конкретными правилами, он включает сленг, сарказм, современные сокращения и т. д. Естественный язык может иметь любую форму: текст, речь и даже язык жестов.
Естественный язык должен быть обработан, чтобы машина могла его понять, отсюда и НЛП.

Обработка естественного языка

NLP (обработка естественного языка), если говорить простыми словами, — это взаимодействие между компьютерами и людьми с использованием естественного языка. В широком смысле это можно определить как создание вычислительных инструментов для автоматического манипулирования естественным языком, таким как речь и текст. Конечная цель НЛП состоит в том, чтобы читать, расшифровывать, понимать и понимать человеческие языки таким образом, чтобы это было ценно, и выполнять полезные операции с языком, такие как перевод, чат-боты, ответы на вопросы, обобщение текста, преобразование речи в текст и наоборот. к речи, анализу настроений и т. д.

Как правило, мы понимаем обработку естественного языка в широком смысле, чтобы охватить любые компьютерные манипуляции с естественным языком. С одной стороны, это может быть так же просто, как подсчет частоты слов для сравнения различных стилей письма. С другой стороны, НЛП предполагает «понимание» полных человеческих высказываний, по крайней мере, до такой степени, чтобы быть в состоянии давать на них полезные ответы. Это собирательный термин, относящийся к автоматической вычислительной обработке человеческих языков. Это включает в себя как алгоритмы, которые принимают текст, созданный человеком, в качестве входных данных, так и алгоритмы, которые создают естественный текст в качестве выходных данных.

Структурированные и неструктурированные данные

Основное различие между структурированными и неструктурированными данными заключается в том, что структурированные данные обычно имеют табличный формат, т. е. могут отображаться в строках, столбцах и реляционных базах данных. Это также могут быть просто числа, даты, идентификаторы и т. д., тогда как неструктурированные данные не могут отображаться в строках, столбцах и реляционных базах данных. Аудиофайлы, электронные письма, файлы обработки текста, группа статей включены в неструктурированную категорию.

Структурированные данные предпочтительнее в таких задачах, как классификация текста и машинный перевод, где требуются помеченные данные, а в таких задачах, как модель контроля качества и языковые модели, предпочтительны неструктурированные данные.

Проблемы в НЛП

Естественный язык сложен для изучения и очень неоднозначен. Чтобы просто понять уровень сложности, среднему взрослому человеку требуется около 6–7 месяцев, чтобы выучить язык, который машина должна выучить за один раз. Даже после обучения язык всегда развивается, определить истинный смысл предложения действительно сложно, как сделать анализ настроений по саркастическому отзыву. Хотя в языке есть определенные управляющие правила, необработанные данные не обязательно следуют этим правилам. В языке миллениалов есть сленг и сокращения, которые доставляют много хлопот при обработке естественных языков.

Чего мы не хотим здесь делать, так это пропускать основные понятия НЛП и сразу переходить к классификации текста и суммированию текста. В этой серии мы постараемся охватить как можно больше тем, включая:

Предварительная обработка текста
Нейронные сети
Контекстно-свободные вложения слов
Трансформер
Контекстные вложения слов
Обобщение текста
Текстовая классификация
Модуль контроля качества
КЛЕЙ Бенчмарк

Десять лет назад только специалисты со знанием статистики, машинного обучения и лингвистических концепций могли выполнять тяжелые задачи НЛП, но в последние годы благодаря различным библиотекам НЛП решение задач НЛП стало намного проще. В этой статье мы рассмотрим самые популярные библиотеки НЛП. Их сравнение делается в последующих статьях в зависимости от задачи, на которой основана статья. Итак, давайте начнем.

Известные библиотеки НЛП

Существует множество библиотек НЛП, но стоит упомянуть лишь некоторые из них. Не обязательно детально изучать все библиотеки, нужно знать преимущества и недостатки.

NLTK:Набор инструментов для естественного языка, вероятно, является самой известной библиотекой NLP с более чем 50 корпусами и словарями, 9 стеммерами и десятками алгоритмов на выбор. NLTK предоставляет простые в использовании интерфейсы для более чем 50 корпусов и лексических ресурсов. Несколько недостатков, на которые следует обратить внимание, заключаются в том, что она медленная по сравнению с другими библиотеками, а также немного сложна в изучении и реализации.
spaCy:Spacy известна как современная библиотека, предоставляющая только лучшие алгоритмы, что позволяет избежать стресса при выборе алгоритма. Он разработан специально для производственного использования — он позволяет разрабатывать приложения, которые обрабатывают и понимают огромные объемы текста. Как это реализовано на Cython, Spacy работает молниеносно. Он может поддерживать токенизацию для более чем 49 языков.
Stanford CoreNLP.Stanford CoreNLP — это набор готовых к использованию инструментов естественного анализа. Поскольку CoreNLP написан на Java, он требует, чтобы Java была установлена на вашем устройстве. Однако он предлагает программные интерфейсы для многих популярных языков программирования, включая Python. Библиотека предоставляет широкие функциональные возможности, а также очень быстрая и точная. Следовательно, многие организации используют CoreNLP для производства.
TextBlob: TextBlob построен на основе NLTK и другого пакета, известного как Pattern. Это простой в использовании интерфейс библиотеки NLTK. Он основан как на NLTK, так и на Pattern и предоставляет очень простой API для всех распространенных (и некоторых менее распространенных) задач NLP. Хотя TextBlob не делает ничего особенно нового или захватывающего, он делает работу с текстом очень приятной и устраняет множество барьеров. Библиотека предоставляет встроенные функции для классификации текста и анализа настроений.
Gensim:Gensim — это библиотека Python, разработанная специально для «тематического моделирования, индексирования документов и поиска сходства с большими корпусами». Все алгоритмы в Gensim не зависят от памяти, относительно размера корпуса и, следовательно, он может обрабатывать ввод больше, чем ОЗУ. Несмотря на встроенный чистый Python, Gensim работает быстро и эффективно использует память.

Это было базовое введение в НЛП и библиотеки, предоставляющие функции НЛП. Дальнейшие статьи будут углубляться в темы, на которых основана статья.

Итак, давайте начнем наше путешествие по НЛП!