|
Программирование
Table recognition technology in tax documents of the Russian Federation
[Технология распознавания таблиц в налоговых документах РФ]
O. A. Slavinab a Federal Research Center “Computer Science and Control” RAS, Moscow,
Russian Federation
b LLC “Smart Engines Service”, Moscow, Russian Federation
Аннотация:
Рассматривается известная задача распознавания ячеек таблиц на изображении. Исследуется обработка налогового российского документа 2-НДФЛ. Несмотря на простую структуру таблиц, способ печати основан на гибком шаблоне. Гибкость формы наблюдается как в части модификаций текстовой информации, так и в области таблиц. Гибкость таблиц состоит в изменении числа и размеров столбцов. Для детектирования таблиц был предложен структурный метод. Входными данными метода являются детектированные горизонтальные и вертикальные отрезки. Поиск отрезков проводился механизмами, реализованными в системе Smart Document Reader. Апробация и внедрение предложенного метода также осуществлялось в системе Smart Document Reader. Кроме детектирования области предполагаемого размещения таблиц решены следующие задачи: поиск ячеек таблиц, именование ячеек таблиц, валидация области таблицы. Валидация области таблицы проводилась для отдельных таблиц, а также для совокупностей таблиц. Применение описаний совокупностей таблиц обеспечило высокую надежность привязки набора таблиц.
Ключевые слова:
распознавание таблиц, детектирование отрезка, раскладка таблиц.
Поступила в редакцию: 14.11.2023
Образец цитирования:
O. A. Slavin, “Table recognition technology in tax documents of the Russian Federation”, Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 17:1 (2024), 75–85
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vyuru713 https://www.mathnet.ru/rus/vyuru/v17/i1/p75
|
|