Компьютерные исследования и моделирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерные исследования и моделирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерные исследования и моделирование, 2021, том 13, выпуск 6, страницы 1317–1336
DOI: https://doi.org/10.20537/2076-7633-2021-13-6-1317-1336
(Mi crm950)
 

МОДЕЛИ ЭКОНОМИЧЕСКИХ И СОЦИАЛЬНЫХ СИСТЕМ

Метод контрастного семплирования для предсказания библиографических ссылок

Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова

NAUMEN R&D, Россия, 620028, г. Екатеринбург, ул. Татищева, 49а
Список литературы:
Аннотация: В работе рассматривается задача поиска в научной статье фрагментов с недостающими библиографическими ссылками с помощью автоматической бинарной классификации. Для обучения модели предложен метод контрастного семплирования, новшеством которого является рассмотрение контекста ссылки с учетом границ фрагмента, максимально влияющего на вероятность нахождения в нем библиографической ссылки. Обучающая выборка формировалась из автоматически размеченных семплов — фрагментов из трех предложений с метками классов «без ссылки» и «со ссылкой», удовлетворяющих требованию контрастности: семплы разных классов дистанцируются в исходном тексте. Пространство признаков строилось автоматически по статистике встречаемости термов и расширялось за счет конструирования дополнительных признаков — выделенных в тексте сущностей ФИО, чисел, цитат и аббревиатур.
Проведена серия экспериментов на архивах научных журналов «Правоприменение» (273 статьи) и «Журнал инфектологии» (684 статьи). Классификация осуществлялась моделями Nearest Neighbours, RBF SVM, Random Forest, Multilayer Perceptron, с подбором оптимальных гиперпараметров для каждого классификатора.
Эксперименты подтвердили выдвинутую гипотезу. Наиболее высокую точность показал нейросетевой классификатор (95 %), уступающий по скорости линейному, точность которого при контрастном семплировании также оказалась высока (91–94 %). Полученные значения превосходят результаты, опубликованные для задач NER и анализа тональности на данных со сравнимыми характеристиками. Высокая вычислительная эффективность предложенного метода позволяет встраивать его в прикладные системы и обрабатывать документы в онлайн-режиме.
Ключевые слова: контрастное семплирование, анализ цитирования, передискретизация данных, предсказание библиографических ссылок, текстовая классификация, искусственные нейронный сети.
Поступила в редакцию: 30.07.2021
Исправленный вариант: 14.09.2021
Принята в печать: 25.09.2021
Тип публикации: Статья
УДК: 004.896, 004.584, 004.91, 519.688
Образец цитирования: Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова, “Метод контрастного семплирования для предсказания библиографических ссылок”, Компьютерные исследования и моделирование, 13:6 (2021), 1317–1336
Цитирование в формате AMSBIB
\RBibitem{KraSmaBas21}
\by Ф.~В.~Краснов, И.~С.~Смазневич, Е.~Н.~Баскакова
\paper Метод контрастного семплирования для предсказания библиографических ссылок
\jour Компьютерные исследования и моделирование
\yr 2021
\vol 13
\issue 6
\pages 1317--1336
\mathnet{http://mi.mathnet.ru/crm950}
\crossref{https://doi.org/10.20537/2076-7633-2021-13-6-1317-1336}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/crm950
  • https://www.mathnet.ru/rus/crm/v13/i6/p1317
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерные исследования и моделирование
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025