Как найти похожие словосочетания в НЛП?

Есть ли способ определить похожие словосочетания с существительными. Некоторые предлагают использовать подходы на основе шаблонов, например X as Y выражения:

Усэйн Болт в роли короля спринта

Ливерпуль как красные


person Shimak    schedule 27.10.2018    source источник


Ответы (1)


Существует множество методов поиска альтернативных имен для данного объекта с использованием таких шаблонов, как:

  • X also known as Y
  • X also titled as Y

и сканирование больших коллекций документов (например, статей из Википедии или газет) — один из способов сделать это.

Есть и другие альтернативы, одна из которых, насколько я помню, использует структуру ссылок Википедии, например, исследуя ссылки перенаправления между статьями. Вы можете скачать файл со списком редиректов отсюда: https://wiki.dbpedia.org/Downloads2015-04 и исследуя файл, вы можете найти альтернативные имена/синонимы для сущностей, например:

  • Kennedy_Centre -> John_F._Kennedy_Center_for_the_Performing_Arts>
  • Lord_Alton_of_Liverpool -> David_Alton,_Baron_Alton_of_Liverpool
  • Indiana_jones_2 -> Indiana_Jones_and_the_Temple_of_Doom

Еще одна вещь, которую вы можете сделать, это объединить эти два метода, например, искать текстовые сегменты, в которых встречаются и Indiana Jones, и Indiana_Jones_and_the_Temple_of_Doom, и которые не отстоят друг от друга больше, чем, скажем, на 4 или 5 токенов. Вы можете найти такие шаблоны, как also titled as, затем вы можете использовать эти шаблоны, чтобы найти больше синонимов/альтернативных имен.

person David Batista    schedule 28.10.2018
comment
Можно ли использовать шаблонный подход в коллекции сообщений twitter или facebook, например, извлечение данных, похожих на ключевое слово, и поиск по коллекции. - person Shimak; 29.10.2018
comment
Паттерны, которые вы упомянули выше, известны как паттерны Херста. Документ, который автоматически находит и оценивает похожие шаблоны, называется «Изучение синтаксических шаблонов для автоматического обнаружения гипернимов» — традиционно эти шаблоны предназначались для поиска гипернимов, но с небольшими изменениями они работают и для синонимов. papers.nips.cc/paper/ - person polm23; 28.12.2018