|
Система автоматического построения графов знаний математических документов
О. А. Невзорова, Б. Т. Гизатуллин Казанский (Приволжский) федеральный университет, г. Казань, 420008, Россия
Аннотация:
В настоящей работе представлен процесс создания системы автоматизированного построения графов знаний для коллекций математических документов в формате LATEX. Разработана онтология MathCollectionOntology, определяющая типы объектов и связей в графах знаний. Представлены инструменты, включающие методы извлечения математических терминов, выделения тематик документов, извлечения сущностей из LATEX-кода, а также инструменты для вычисления статистических параметров графа.
Среди выделяемых сущностей: математические термины, тематики, полученные методом латентного размещения Дирихле, коды УДК, использованные формулы, аффилиации авторов, использованная литература и другие. Каждый извлеченный объект записывается в граф знаний с использованием определенных типов связей, выделенных в разработанной онтологии MathCollectionOntology.
С использованием разработанной системы проведены построение и анализ графа знаний для коллекции научных статей журнала «Известия высших учебных заведений. Математика», включающей 1114 русскоязычных статей в формате LATEX. Выделен терминологический состав тематик документов. Получены количественные параметры построенного графа знаний коллекции.
Ключевые слова:
построение графа знаний, открытые связанные данные, тематическое моделирование, математическая статья, обработка текстов.
Поступила в редакцию: 14.08.2023 Принята в печать: 14.09.2023
Образец цитирования:
О. А. Невзорова, Б. Т. Гизатуллин, “Система автоматического построения графов знаний математических документов”, Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 165, № 3, 2023, 264–281
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/uzku1638 https://www.mathnet.ru/rus/uzku/v165/i3/p264
|
Статистика просмотров: |
Страница аннотации: | 60 | PDF полного текста: | 121 | Список литературы: | 14 |
|