LDA, USE, Sentence-BERT, PCA, UMAP и HDBSCAN

В основном есть два подхода к обучению без учителя, чтобы понять, о чем говорится в коротких текстах: тематическое моделирование и кластеризация вложений.

Тематическое моделирование

Тематическое моделирование используется для обнаружения скрытых тем в коллекции документов. Очень распространенным алгоритмом тематического моделирования является LDA (латентное распределение Дирихле). Обратите внимание, что гиперпараметром алгоритма LDA является количество тем, которые необходимо найти, которые можно оптимизировать, максимизируя/минимизируя подходящую метрику, такую ​​как метрика согласованности. Для этой цели LDA используется Airbnb.

Однако намерения часто более конкретны, чем темы, поэтому кластеризация вложений может быть полезной альтернативой.

Кластеризация вложений

Намерения можно определить, найдя точные и узкие кластеры. Обычно это делается в три этапа:

  1. Получите кодировку из каждого документа. Google Универсальный кодировщик предложений (USE) и Предложение-BERT являются популярными кодировщиками предложений для этой цели.
  2. Уменьшите размерность вложения. Вы можете использовать такие методы, как PCA и UMAP. Было замечено, что этот шаг улучшает результаты кластеризации на следующем шаге.
  3. Кластеризовать вложения. Обычно используются алгоритмы кластеризации на основе плотности, такие как HDBSCAN.

Наборы данных

Команда PolyAI опубликовала набор банковских данных, содержащий более 10 000 сообщений, охватывающих 77 намерений, которые вы можете использовать для тестирования своих алгоритмов. Учтите, что в реальных условиях вы столкнетесь с дополнительными проблемами, такими как определение того, какое сообщение каждого диалога содержит намерение. https://github.com/PolyAI-LDN/task-specific-datasets.

Трудно найти другие общедоступные наборы данных, поскольку реальные данные должны быть анонимными.

Примеры кода

Будьте в курсе последних новостей о прикладной обработке естественного языка и присоединяйтесь к сообществу NLPlanet в LinkedIn, Twitter, Facebook и Telegram.