Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2022, том 14, выпуск 5, страницы 1185–1197
DOI: https://doi.org/10.20537/2076-7633-2022-14-5-1185-1197
(Mi crm1025)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка

Н. А. Игнатьев, У. Ю. Тулиев

Национальный университет Узбекистана, Ташкент, Узбекистан
Список литературы:
Аннотация: Рассматривается технология создания паттернов из слов (понятий) естественного языка по текстовым данным в модели «мешок слов». Паттерны применяются для снижения размерности исходного пространства в описании документов и поиска семантически связанных слов по темам. Процесс снижения размерности реализуется через формирование по паттернам латентных признаков. Исследуется многообразие структур отношений документов для разбиения их на темы в латентном пространстве.
Считается, что заданное множество документов (объектов) разделено на два непересекающихся класса, для анализа которых необходимо использовать общий словарь. Принадлежность слов к общему словарю изначально неизвестна. Объекты классов рассматриваются в ситуации оппозиции друг к другу. Количественные параметры оппозиционности определяются через значения устойчивости каждого признака и обобщенные оценки объектов по непересекающимся наборам признаков.
Для вычисления устойчивости используются разбиения значений признаков на непересекающиеся интервалы, оптимальные границы которых определяются по специальному критерию. Максимум устойчивости достигается при условии, что в границах каждого интервала содержатся значения одного из двух классов.
Состав признаков в наборах (паттернах из слов) формируется из упорядоченной по значениям устойчивости последовательности. Процесс формирования паттернов и латентных признаков на их основе реализуется по правилам иерархической агломеративной группировки.
Набор латентных признаков используется для кластерного анализа документов по метрическим алгоритмам группировки. В процессе анализа применяется коэффициент контентной аутентичности на основе данных о принадлежности документов к классам. Коэффициент является численной характеристикой доминирования представителей классов в группах.
Для разбиения документов на темы предложено использовать объединение групп по отношению их центров. В качестве закономерностей по каждой теме рассматривается упорядоченная по частоте встречаемости последовательность слов из общего словаря.
Приводятся результаты вычислительного эксперимента на коллекциях авторефератов научных диссертаций. Сформированы последовательности слов из общего словаря по четырем темам.
Ключевые слова: тематическое моделирование, иерархическая агломеративная группировка, онтология, общий словарь, контентная аутентичность.
Поступила в редакцию: 30.03.2022
Исправленный вариант: 07.06.2022
Принята в печать: 08.06.2022
Тип публикации: Статья
УДК: 519.8
Образец цитирования: Н. А. Игнатьев, У. Ю. Тулиев, “Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка”, Компьютерные исследования и моделирование, 14:5 (2022), 1185–1197
Цитирование в формате AMSBIB
\RBibitem{IgnTul22}
\by Н.~А.~Игнатьев, У.~Ю.~Тулиев
\paper Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка
\jour Компьютерные исследования и моделирование
\yr 2022
\vol 14
\issue 5
\pages 1185--1197
\mathnet{http://mi.mathnet.ru/crm1025}
\crossref{https://doi.org/10.20537/2076-7633-2022-14-5-1185-1197}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm1025
  • https://www.mathnet.ru/rus/crm/v14/i5/p1185
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
    Статистика просмотров:
    Страница аннотации:79
    PDF полного текста:38
    Список литературы:24
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024