|
Информационные технологии в управлении
Система автоматической обработки тематически ориентированных текстов с терминологическим словарем в формате регулярных выражений
В. С. Суховеров Институт проблем управления им. В.А. Трапезникова РАН, г. Москва
Аннотация:
Разработана система автоматической обработки текстов, оценивающая тематику текста по его терминологии, которая задается словарем терминов. Предложено и обосновано применение регулярных выражений в предметно ориентированных словарях, используемых в программах анализа текста на естественных языках. Отмечена и описана взаимосвязь регулярных выражений и конечных автоматов через регулярные множества. Предложена количественная оценка тематической направленности исследуемого текста — профиль документа, вычисляемый по результатам поиска терминов. Система реализована в виде программного комплекса с вариантом словаря для выбранной предметной области — теории управления и ее приложений. Система протестирована на архиве журнала «Автоматика и телемеханика». Получены профили тематической направленности статей, взятых из различных рубрик журнала. Указаны возможности развития системы.
Ключевые слова:
термин, словарь предметной области, регулярное выражение, конечный автомат, профиль документа, программный комплекс.
Поступила в редакцию: 27.09.2018 Исправленный вариант: 22.10.2018 Принята в печать: 12.12.2018
Образец цитирования:
В. С. Суховеров, “Система автоматической обработки тематически ориентированных текстов с терминологическим словарем в формате регулярных выражений”, Пробл. управл., 2019, № 2, 41–46
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/pu1129 https://www.mathnet.ru/rus/pu/v2/p41
|
|