|
МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ
Метод контрастного семплирования для предсказания библиографических ссылок
Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова NAUMEN R&D, Россия, 620028, г. Екатеринбург, ул. Татищева, 49а
Аннотация:
В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.
Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.
Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95 %), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.
Ключевые слова:
контрастное семплирование, анализ цитирования, передискретизация данных, предсказание библиографических ссылок, текстовая классификация, искусственные нейронный сети.
Поступила в редакцию: 30.07.2021 Исправленный вариант: 14.09.2021 Принята в печать: 25.09.2021
Образец цитирования:
Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова, “Метод контрастного семплирования для предсказания библиографических ссылок”, Компьютерные исследования и моделирование, 13:6 (2021), 1317–1336
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm950 https://www.mathnet.ru/rus/crm/v13/i6/p1317
|
|