Труды СПИИРАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды СПИИРАН, 2019, выпуск 18, том 6, страницы 1381–1406
DOI: https://doi.org/10.15622/sp.2019.18.6.1381-1406
(Mi trspy1085)
 

Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)

Цифровые информационно-телекоммуникационные технологии

Semantic text segmentation from synthetic images of full-text documents
[Сегментация семантического текста по искусственному изображению полнотекстовых документов]

L. Bureš, I. Gruber, P. Neduchal, M. Hlaváč, M. Hrúz

University of West Bohemia
Аннотация: Предлагается разделенный на несколько модулей алгоритм для создания изображений полнотекстовых документов. Эти изображения можно использовать для обучения, тестирования и оценки моделей оптического распознавания символов (ОПР). Алгоритм является модульным, отдельные части могут быть изменены и настроены для создания желаемых изображений. Описывается метод получения фоновых изображений бумаги из уже оцифрованных документов. Для этого используется новый, основанный на вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось обучение.
Для получения правдоподобного эффекта старения в модуле печати текста используются большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов.
Поддерживаются несколько типов макетов страницы. Система генерирует подробную структурированную аннотацию искусственного изображения. Для сравнения реальных изображений с искусственно созданными используется программа Тессеракт ОПР. Точность распознавания приблизительно схожа, что указывает на правильность сгенерированных искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих случаях очень похожи. На основе сгенерированных изображений была обучена архитектура сверточная кодер-декодер нейронная сеть полностью для семантической сегментации отдельных символов. Благодаря этой архитектуре достигнута точность распознавания 99,28% в тестовом наборе синтетических документов.
Ключевые слова: генерация искусственных изображений, сегментация семантического текста, вариационный автоэнкодер, OCR, оптическое распознавание символов, распознавание текста, генерация искусственно состаренного текста.
Финансовая поддержка Номер гранта
Ministry of Education, Youth and Sports of the Czech Republic LTARF18017
LO1506
National Grid Infrastructure MetaCentrum CESNET LM2015042
University of West Bohemia SGS-2019-027
This work was supported by the Ministry of Education of the Czech Republic, project No. LTARF18017 and Ministry of Education, Youth and Sports of the Czech Republic project No. LO1506. Access to computing and storage facilities owned by parties and projects contributing to the National Grid Infrastructure MetaCentrum provided under the programme "Projects of Large Research, Development, and Innovations Infrastructures" (CESNET LM2015042), is greatly appreciated. The work has been supported by the grant of the University of West Bohemia, project No. SGS-2019-027.
Поступила в редакцию: 24.09.2019
Тип публикации: Статья
УДК: 004.9
Язык публикации: английский
Образец цитирования: L. Bureš, I. Gruber, P. Neduchal, M. Hlaváč, M. Hrúz, “Semantic text segmentation from synthetic images of full-text documents”, Тр. СПИИРАН, 18:6 (2019), 1381–1406
Цитирование в формате AMSBIB
\RBibitem{BurGruNed19}
\by L.~Bure{\v s}, I.~Gruber, P.~Neduchal, M.~Hlav\'a{\v{c}}, M.~Hr\'uz
\paper Semantic text segmentation from synthetic images of full-text documents
\jour Тр. СПИИРАН
\yr 2019
\vol 18
\issue 6
\pages 1381--1406
\mathnet{http://mi.mathnet.ru/trspy1085}
\crossref{https://doi.org/10.15622/sp.2019.18.6.1381-1406}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1085
  • https://www.mathnet.ru/rus/trspy/v18/i6/p1381
  • Эта публикация цитируется в следующих 4 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:169
    PDF полного текста:58
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024