А. В. Глазкова, Д. А. Морозов, М. С. Воробьева, А. А. Ступников, “Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5”, Модел. и анализ информ. систем, 30:4 (2023), 418

Моделирование и анализ информационных систем

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Моделирование и анализ информационных систем, 2023, том 30, номер 4, страницы 418–428
DOI: https://doi.org/10.18255/1818-1015-2023-4-418-428 (Mi mais812)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Artificial intelligence

Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5

А. В. Глазкова^ab, Д. А. Морозов^ac, М. С. Воробьева^b, А. А. Ступников^b

^a Институт проблем передачи информации РАН им. А. А. Харкевича, Большой Каретный переулок, д. 19, стр. 1, г. Москва, 127051, Россия
^b Тюменский государственный университет, ул. Володарского, д. 6, г. Тюмень, 625003, Россия
^c Новосибирский национальный исследовательский государственный университет, ул. Пирогова, д. 1, г. Новосибирск, 630090, Россия

PDF полного текста (517 kB) Список цитирования (1)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.18255/1818-1015-2023-4-418-428

Аннотация: Авторами предлагается подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian. Автоматический подбор ключевых слов является актуальной задачей обработки естественного языка, поскольку ключевые слова помогают читателям осуществлять поиск статей и облегчают систематизацию научных текстов. В данной работе задача подбора ключевых слов рассматривается как задача автоматического реферирования текстов. Дообучение mT5 осуществлялась на текстах аннотаций русскоязычных научных статей. В качестве входных и выходных данных выступали тексты аннотаций и списки ключевых слов, разделенных запятыми, соответственно. Результаты, полученные с помощью mT5, были сравнены с результатами нескольких базовых методов: TopicRank, YAKE!, RuTermExtract, и KeyBERT. Для представления результатов использовались следующие метрики: F-мера, ROUGE-1, BERTScore. Лучшие результаты на тестовой выборке были получены с помощью mT5 и RuTermExtract. Наиболее высокое значение F-меры продемонстрировала модель mT5 (11.24 %), превзойдя RuTermExtract на 0.22 %. RuTermExtract показал лучший результат по метрике ROUGE-1 (15.12 %). Лучшие результаты по BERTScore также были достигнуты этими двумя методами: mT5 — 76.89 % (BERTScore, использующая модель mBERT), RuTermExtract — 75.8 % (BERTScore на основе ruSciBERT). Также авторами была оценена возможность mT5 генерировать ключевые слова, отсутствующие в исходном тексте. К ограничениям предложенного подхода относятся необходимость формирования обучающей выборки для дообучения модели и, вероятно, ограниченная применимость дообученной модели для текстов других предметных областей. Преимущества генерации ключевых слов с помощью mT5 — отсутствие необходимости задавать фиксированные значения длины и количества ключевых слов, необходимости проводить нормализацию, что особенно важно для флективных языков, и возможность генерировать ключевые слова, в явном виде отсутствующие в тексте.

Ключевые слова: автоматическое реферирование, подбор ключевых слов, mT5.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	МК-3118.2022.4
Работа выполнена в рамках проекта № МК-3118.2022.4, поддержанного грантом Президента Российской Федерации для молодых ученых — кандидатов наук.

Поступила в редакцию: 13.11.2023
Исправленный вариант: 22.11.2023
Принята в печать: 29.11.2023

Тип публикации: Статья

УДК: 004.912

MSC: 68T50

Образец цитирования: А. В. Глазкова, Д. А. Морозов, М. С. Воробьева, А. А. Ступников, “Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5”, Модел. и анализ информ. систем, 30:4 (2023), 418–428

Цитирование в формате AMSBIB

\RBibitem{GlaMorVor23}

\by А.~В.~Глазкова, Д.~А.~Морозов, М.~С.~Воробьева, А.~А.~Ступников

\paper Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5

\jour Модел. и анализ информ. систем

\yr 2023

\vol 30

\issue 4

\pages 418--428

\mathnet{http://mi.mathnet.ru/mais812}

\crossref{https://doi.org/10.18255/1818-1015-2023-4-418-428}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/mais812

https://www.mathnet.ru/rus/mais/v30/i4/p418

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Моделирование и анализ информационных систем

Статистика просмотров:
Страница аннотации:	52
PDF полного текста:	28
Список литературы:	10

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы