|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Семантическая обработка неструктурированных текстовых данных на основе лингвистического процессора PullEnti
Е. Б. Козеренкоa, К. И. Кузнецовa, Д. А. Романовb a Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии
наук
b Национальный исследовательский университет «Высшая школа экономики»
Аннотация:
Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti, включающий алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка (персоны, организации, локации и другие целевые семантические объекты). В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. Именно таким образом запускается блок семантического анализа. В процессе анализа выделяются семантические единицы (токены), которые представляют собой типизированные фразы: текстовые, числовые и др. Приводятся примеры реализованных проектов для различных предметных областей.
Ключевые слова:
семантическое моделирование; извлечение именованных сущностей; области с интенсивным использованием данных; автоматизированные системы извлечения знаний; семантический поиск; интеллектуальные интернет-технологии.
Поступила в редакцию: 13.07.2018
Образец цитирования:
Е. Б. Козеренко, К. И. Кузнецов, Д. А. Романов, “Семантическая обработка неструктурированных текстовых данных на основе лингвистического процессора PullEnti”, Информ. и её примен., 12:3 (2018), 91–98
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia552 https://www.mathnet.ru/rus/ia/v12/i3/p91
|
|