|
Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок
Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова NAUMEN
Аннотация:
В статье исследуются различные стратегии семплирования текстовых данных при выполнении автоматической классификации предложений с целью обнаружения недостающих библиографических ссылок. Построение семплов осуществляется на основе предложений в качестве семантических единиц текста, к которым добавляется их непосредственный контекст, состоящий из нескольких соседних предложений. Исследуется ряд стратегий семплирования, которые различаются размером и положением контекста. Эксперимент проведен на данных из сборника научных работ по естественнонаучной и инженерной тематике. Показано, что включение контекста предложений в семплы улучшает результат классификации предложений. Предложен метод автоматического определения оптимальной стратегии семплирования для данной текстовой коллекции: оптимальная стратегия определяется результатом голосования одинаковых классификаторов, получающих на вход одни и те же данные, семплированные различными способами. Семплирование с учетом контекста предложения в сочетании с процедурой жесткого голосования (hard voting) показало точность классификации 98% (оценка F1). Предложенный подход к обнаружению недостающих библиографических ссылок может использоваться в рекомендательных модулях прикладных интеллектуальных информационных систем.
Ключевые слова:
семплирование текста, стратегия семплирования, анализ цитирования, прогнозирование библиографических ссылок, классификация предложений
Образец цитирования:
Ф. В. Краснов, И. С. Смазневич, Е. Н. Баскакова, “Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок”, Труды ИСП РАН, 34:2 (2022), 77–88
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp679 https://www.mathnet.ru/rus/tisp/v34/i2/p77
|
Статистика просмотров: |
Страница аннотации: | 15 | PDF полного текста: | 6 |
|