|
Искусственный интеллект, инженерия данных и знаний
Комбинированный метод извлечения терминов для задачи мониторинга тематических обсуждений в социальных медиа
В. К. Пимешковa, М. Л. Никонороваa, М. Г. Шишаевab a ИИММ КНЦ РАН
b Филиал МАУ в г. Апатиты
Аннотация:
Извлечение терминов является важным этапом автоматизированного построения систем знаний на основе естественно-языковых текстов, поскольку обеспечивает формирование базовой системы понятий, используемой затем в прикладных задачах интеллектуальной обработки информации. В статье рассмотрена проблема автоматизированного извлечения терминов из естественно-языковых текстов с целью их дальнейшего использования при построении формализованных систем знаний (онтологий, тезаурусов, графов знаний) в рамках задачи мониторинга тематических обсуждений в социальных медиа. Данная задача характеризуется необходимостью включения в формируемую систему знаний как понятий из нескольких различных предметных областей, так и некоторых общеупотребительных понятий, используемых аудиторией социальных медиа в рамках тематических обсуждений. Кроме того, формируемая система знаний является динамичной как с точки зрения состава охватываемых ею предметных областей, так и состава релевантных понятий, подлежащих включению в систему. Применение существующих классических методов извлечения терминов в данном случае затруднительно, поскольку они ориентированы на извлечение терминов в рамках одной предметной области. Исходя из этого, для решения рассматриваемой задачи предложен комбинированный метод, совмещающий в себе подходы на основе внешних источников знаний, инструментов NER и правил. Результаты проведенных экспериментов демонстрируют эффективность предложенной комбинации подходов к извлечению терминов для задачи мониторинга и анализа тематических обсуждений в социальных медиа. Разработанный метод значительно превосходит по точности существующие инструменты извлечения терминов. В качестве дальнейшего направления исследования рассмотрена возможность развития метода для решения задачи выделения вложенных терминов или сущностей.
Ключевые слова:
интеллектуальный анализ текстов, извлечение терминов, социальные медиа, извлечение знаний.
Поступила в редакцию: 14.11.2023
Образец цитирования:
В. К. Пимешков, М. Л. Никонорова, М. Г. Шишаев, “Комбинированный метод извлечения терминов для задачи мониторинга тематических обсуждений в социальных медиа”, Информатика и автоматизация, 23:4 (2024), 1110–1138
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1316 https://www.mathnet.ru/rus/trspy/v23/i4/p1110
|
Статистика просмотров: |
Страница аннотации: | 34 | PDF полного текста: | 12 |
|