Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2022, том 34, выпуск 2, страницы 77–88
DOI: https://doi.org/10.15514/ISPRAS-2022-34(2)-7
(Mi tisp679)
 

Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок

Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова

NAUMEN
Аннотация: В статье исследуются различные стратегии семплирования текстовых данных при выполнении автоматической классификации предложений с целью обнаружения недостающих библиографических ссылок. Построение семплов осуществляется на основе предложений в качестве семантических единиц текста, к которым добавляется их непосредственный контекст, состоящий из нескольких соседних предложений. Исследуется ряд стратегий семплирования, которые различаются размером и положением контекста. Эксперимент проведен на данных из сборника научных работ по естественнонаучной и инженерной тематике. Показано, что включение контекста предложений в семплы улучшает результат классификации предложений. Предложен метод автоматического определения оптимальной стратегии семплирования для данной текстовой коллекции: оптимальная стратегия определяется результатом голосования одинаковых классификаторов, получающих на вход одни и те же данные, семплированные различными способами. Семплирование с учетом контекста предложения в сочетании с процедурой жесткого голосования (hard voting) показало точность классификации 98% (оценка F1). Предложенный подход к обнаружению недостающих библиографических ссылок может использоваться в рекомендательных модулях прикладных интеллектуальных информационных систем.
Ключевые слова: семплирование текста, стратегия семплирования, анализ цитирования, прогнозирование библиографических ссылок, классификация предложений
Тип публикации: Статья
Образец цитирования: Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова, “Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок”, Труды ИСП РАН, 34:2 (2022), 77–88
Цитирование в формате AMSBIB
\RBibitem{KraSmaBas22}
\by Ф.~В.~Краснов, И.~С.~Смазневич, Е.~Н.~Баскакова
\paper Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок
\jour Труды ИСП РАН
\yr 2022
\vol 34
\issue 2
\pages 77--88
\mathnet{http://mi.mathnet.ru/tisp679}
\crossref{https://doi.org/10.15514/ISPRAS-2022-34(2)-7}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp679
  • https://www.mathnet.ru/rus/tisp/v34/i2/p77
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:6
    PDF полного текста:4
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024