|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Автоматическое извлечение метаданных из научных PDF-документов
А. В. Огальцовab, О. Ю. Бахтеевcb a Высшая школа экономики
b ЗАО «Антиплагиат»
c Московский физико-технический институт
Аннотация:
Исследуется извлечение метаданных документа. Рассматриваются научные PDF-документы на русском языке. Особенностью формата PDF является разнообразие расположения текста на страницах документа. Это создает трудности для автоматического извлечения метаданных. Предложенный метод извлечения метаданных основан на рассмотрении текстовых блоков, полученных при помощи PDF-парсера, как объектов в задаче машинного обучения. Признаковое пространство содержит не только текстовые признаки, но и признаки, связанные с форматированием и расположением блока, которые получены из PDF-парсера. В работе измерено качество классификации предложенного алгоритма и проведено сравнение с базовым алгоритмом.
Ключевые слова:
извлечение метаданных; обработка естественного языка; признаки форматирования; извлечение информации; метаописания.
Поступила в редакцию: 20.12.2017
Образец цитирования:
А. В. Огальцов, О. Ю. Бахтеев, “Автоматическое извлечение метаданных из научных PDF-документов”, Информ. и её примен., 12:2 (2018), 75–82
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ia535 https://www.mathnet.ru/rus/ia/v12/i2/p75
|
Статистика просмотров: |
Страница аннотации: | 440 | PDF полного текста: | 277 | Список литературы: | 35 |
|