|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
Применение дескрипторов объектов для привязки структурных элементов зашумленных образов деловых документов
О. А. Славинab a Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук", г. Москва, Россия
b ООО "Смарт Энджинс Сервис"
Аннотация:
Рассматривается задача извлечения из распознанного образа документа элементов заполнения (полей) с помощью дескрипторов – описаний одного или нескольких структурных элементов. Структурными элементами могут быть слова статического текста и линии разграфки, используемые для оформления дизайна документа. Рассматриваются деловые документы с упрощенной структурой и ограниченным словарем. Рассматриваются гибкие деловые документы, допускающие существенные модификации дизайна страницы. Дескрипторы создаются с учетом значительного числа возможных ошибок распознавания страниц документов. Описываются комбинированные дескрипторы, состоящие из нескольких термов и отрезков линий. Приводится алгоритм привязки, базирующийся на дескрипторах. Экспериментально показывается, что извлечение комбинированных дескрипторов улучшает точность распознавания полей документа при распознавании на 17%, а точность извлечения информации из образа документа – на 16%. В качестве OCR в эксперименте использовалась система SDK Smart Document Engine.
Ключевые слова:
зашумленный образ, распознавание документа, текстовая особая точка, дескриптор.
Образец цитирования:
О. А. Славин, “Применение дескрипторов объектов для привязки структурных элементов зашумленных образов деловых документов”, ИТиВС, 2022, № 4, 13–24
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/itvs782 https://www.mathnet.ru/rus/itvs/y2022/i4/p13
|
|