|
Элементы самообучения в системе извлечения биографических фактов Т-парсер
И. М. Адамович, О. И. Волков Институт проблем информатики Федерального исследовательского центра
«Информатика и управление»
Российской академии наук
Аннотация:
Статья посвящена дальнейшему развитию системы автоматического извлечения фактов из текстов историко-биографической направленности Т-парсер — составной части технологии автоматизации историко-биографического исследования. Намечаются пути увеличения скорости обработки за счет использования механизма самообучения. Описываются и обосновываются применяемые формы самообучения, формулируются возможные проблемы. Приводится классификация ветвлений при разборе текстов. Описывается и обосновывается механизм фильтрации при формировании базы данных (БД) прецедентов на основе методов статистического приемочного контроля по альтернативному признаку. Приводится описание обновленного алгоритма парсинга и экспериментальной проверки его эффективности по сравнению с предыдущей версией, осуществленной на реальных текстах историко-биографической направленности. Приводятся результаты экспериментов, подтверждающие высокую эффективность обновленного алгоритма и его применимость в технологии автоматизации историко-биографического исследования, предназначенной для широкого круга не являющихся профессиональными историками и биографами пользователей, что актуально в связи со все увеличивающимся общественным интересом к семейной истории.
Ключевые слова:
извлечение фактов из текстов, самообучение, ветвления, статистический приемочный контроль, обучающая выборка.
Поступила в редакцию: 15.05.2018
Образец цитирования:
И. М. Адамович, О. И. Волков, “Элементы самообучения в системе извлечения биографических фактов Т-парсер”, Системы и средства информ., 28:4 (2018), 145–155
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ssi614 https://www.mathnet.ru/rus/ssi/v28/i4/p145
|
Статистика просмотров: |
Страница аннотации: | 157 | PDF полного текста: | 33 | Список литературы: | 23 |
|