А. В. Огальцов, О. Ю. Бахтеев, “Автоматическое извлечение метаданных из научных PDF-документов”, Информ. и её примен., 12:2 (2018), 75

Информатика и её применения

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информ. и её примен.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Информатика и её применения, 2018, том 12, выпуск 2, страницы 75–82
DOI: https://doi.org/10.14357/19922264180211 (Mi ia535)

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Автоматическое извлечение метаданных из научных PDF-документов

А. В. Огальцов^ab, О. Ю. Бахтеев^cb

^a Высшая школа экономики
^b ЗАО «Антиплагиат»
^c Московский физико-технический институт

PDF полного текста (856 kB) Список цитирования (2)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.14357/19922264180211

Аннотация: Исследуется извлечение метаданных документа. Рассматриваются научные PDF-документы на русском языке. Особенностью формата PDF является разнообразие расположения текста на страницах документа. Это создает трудности для автоматического извлечения метаданных. Предложенный метод извлечения метаданных основан на рассмотрении текстовых блоков, полученных при помощи PDF-парсера, как объектов в задаче машинного обучения. Признаковое пространство содержит не только текстовые признаки, но и признаки, связанные с форматированием и расположением блока, которые получены из PDF-парсера. В работе измерено качество классификации предложенного алгоритма и проведено сравнение с базовым алгоритмом.

Ключевые слова: извлечение метаданных; обработка естественного языка; признаки форматирования; извлечение информации; метаописания.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	18-07-01441_а
Работа выполнена при поддержке РФФИ (проект 18-07-01441).

Поступила в редакцию: 20.12.2017

Реферативные базы данных:

Тип публикации: Статья

Образец цитирования: А. В. Огальцов, О. Ю. Бахтеев, “Автоматическое извлечение метаданных из научных PDF-документов”, Информ. и её примен., 12:2 (2018), 75–82

Цитирование в формате AMSBIB

\RBibitem{OgaBak18}

\by А.~В.~Огальцов, О.~Ю.~Бахтеев

\paper Автоматическое извлечение метаданных из научных PDF-документов

\jour Информ. и её примен.

\yr 2018

\vol 12

\issue 2

\pages 75--82

\mathnet{http://mi.mathnet.ru/ia535}

\crossref{https://doi.org/10.14357/19922264180211}

\elib{https://elibrary.ru/item.asp?id=35161786}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/ia535

https://www.mathnet.ru/rus/ia/v12/i2/p75

Эта публикация цитируется в следующих 2 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	423
PDF полного текста:	260
Список литературы:	25

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы