L. Bureš, I. Gruber, P. Neduchal, M. Hlaváč, M. Hrúz, “Semantic text segmentation from synthetic images of full-text documents”, Тр. СПИИРАН, 18:6 (2019), 1381

Труды СПИИРАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды СПИИРАН, 2019, выпуск 18, том 6, страницы 1381–1406
DOI: https://doi.org/10.15622/sp.2019.18.6.1381-1406 (Mi trspy1085)

Эта публикация цитируется в 4 научных статьях (всего в 4 статьях)

Цифровые информационно-телекоммуникационные технологии

Semantic text segmentation from synthetic images of full-text documents

[Сегментация семантического текста по искусственному изображению полнотекстовых документов]

L. Bureš, I. Gruber, P. Neduchal, M. Hlaváč, M. Hrúz

University of West Bohemia

PDF полного текста (9329 kB) Список цитирования (4)

DOI: https://doi.org/10.15622/sp.2019.18.6.1381-1406

Аннотация: Предлагается разделенный на несколько модулей алгоритм для создания изображений полнотекстовых документов. Эти изображения можно использовать для обучения, тестирования и оценки моделей оптического распознавания символов (ОПР). Алгоритм является модульным, отдельные части могут быть изменены и настроены для создания желаемых изображений. Описывается метод получения фоновых изображений бумаги из уже оцифрованных документов. Для этого используется новый, основанный на вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось обучение.
Для получения правдоподобного эффекта старения в модуле печати текста используются большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов.
Поддерживаются несколько типов макетов страницы. Система генерирует подробную структурированную аннотацию искусственного изображения. Для сравнения реальных изображений с искусственно созданными используется программа Тессеракт ОПР. Точность распознавания приблизительно схожа, что указывает на правильность сгенерированных искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих случаях очень похожи. На основе сгенерированных изображений была обучена архитектура сверточная кодер-декодер нейронная сеть полностью для семантической сегментации отдельных символов. Благодаря этой архитектуре достигнута точность распознавания 99,28% в тестовом наборе синтетических документов.

Ключевые слова: генерация искусственных изображений, сегментация семантического текста, вариационный автоэнкодер, OCR, оптическое распознавание символов, распознавание текста, генерация искусственно состаренного текста.

Финансовая поддержка	Номер гранта
Ministry of Education, Youth and Sports of the Czech Republic	LTARF18017 LO1506
National Grid Infrastructure MetaCentrum	CESNET LM2015042
University of West Bohemia	SGS-2019-027
This work was supported by the Ministry of Education of the Czech Republic, project No. LTARF18017 and Ministry of Education, Youth and Sports of the Czech Republic project No. LO1506. Access to computing and storage facilities owned by parties and projects contributing to the National Grid Infrastructure MetaCentrum provided under the programme "Projects of Large Research, Development, and Innovations Infrastructures" (CESNET LM2015042), is greatly appreciated. The work has been supported by the grant of the University of West Bohemia, project No. SGS-2019-027.

Поступила в редакцию: 24.09.2019

Тип публикации: Статья

УДК: 004.9

Язык публикации: английский

Образец цитирования: L. Bureš, I. Gruber, P. Neduchal, M. Hlaváč, M. Hrúz, “Semantic text segmentation from synthetic images of full-text documents”, Тр. СПИИРАН, 18:6 (2019), 1381–1406

Цитирование в формате AMSBIB

\RBibitem{BurGruNed19}

\by L.~Bure{\v s}, I.~Gruber, P.~Neduchal, M.~Hlav\'a{\v{c}}, M.~Hr\'uz

\paper Semantic text segmentation from synthetic images of full-text documents

\jour Тр. СПИИРАН

\yr 2019

\vol 18

\issue 6

\pages 1381--1406

\mathnet{http://mi.mathnet.ru/trspy1085}

\crossref{https://doi.org/10.15622/sp.2019.18.6.1381-1406}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1085

https://www.mathnet.ru/rus/trspy/v18/i6/p1381

Эта публикация цитируется в следующих 4 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	169
PDF полного текста:	58

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы