|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Artificial intelligence
Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5
А. В. Глазковаab, Д. А. Морозовac, М. С. Воробьеваb, А. А. Ступниковb a Институт проблем передачи информации РАН им. А. А. Харкевича, Большой Каретный переулок, д. 19, стр. 1, г. Москва,
127051, Россия
b Тюменский государственный университет, ул. Володарского, д. 6, г. Тюмень, 625003, Россия
c Новосибирский национальный исследовательский государственный университет, ул. Пирогова, д. 1, г. Новосибирск,
630090, Россия
Аннотация:
Авторами предлагается подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian. Автоматический подбор ключевых слов является актуальной задачей обработки естественного языка, поскольку ключевые слова помогают читателям осуществлять поиск статей и облегчают систематизацию научных текстов. В данной работе задача подбора ключевых слов рассматривается как задача автоматического реферирования текстов. Дообучение mT5 осуществлялась на текстах аннотаций русскоязычных научных статей. В качестве входных и выходных данных выступали тексты аннотаций и списки ключевых слов, разделенных запятыми, соответственно. Результаты, полученные с помощью mT5, были сравнены с результатами нескольких базовых методов: TopicRank, YAKE!, RuTermExtract, и KeyBERT. Для представления результатов использовались следующие метрики: F-мера, ROUGE-1, BERTScore. Лучшие результаты на тестовой выборке были получены с помощью mT5 и RuTermExtract. Наиболее высокое значение F-меры продемонстрировала модель mT5 (11.24 %), превзойдя RuTermExtract на 0.22 %. RuTermExtract показал лучший результат по метрике ROUGE-1 (15.12 %). Лучшие результаты по BERTScore также были достигнуты этими двумя методами: mT5 — 76.89 % (BERTScore, использующая модель mBERT), RuTermExtract — 75.8 % (BERTScore на основе ruSciBERT). Также авторами была оценена возможность mT5 генерировать ключевые слова, отсутствующие в исходном тексте. К ограничениям предложенного подхода относятся необходимость формирования обучающей выборки для дообучения модели и, вероятно, ограниченная применимость дообученной модели для текстов других предметных областей. Преимущества генерации ключевых слов с помощью mT5 — отсутствие необходимости задавать фиксированные значения длины и количества ключевых слов, необходимости проводить нормализацию, что особенно важно для флективных языков, и возможность генерировать ключевые слова, в явном виде отсутствующие в тексте.
Ключевые слова:
автоматическое реферирование, подбор ключевых слов, mT5.
Поступила в редакцию: 13.11.2023 Исправленный вариант: 22.11.2023 Принята в печать: 29.11.2023
Образец цитирования:
А. В. Глазкова, Д. А. Морозов, М. С. Воробьева, А. А. Ступников, “Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5”, Модел. и анализ информ. систем, 30:4 (2023), 418–428
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais812 https://www.mathnet.ru/rus/mais/v30/i4/p418
|
Статистика просмотров: |
Страница аннотации: | 52 | PDF полного текста: | 28 | Список литературы: | 10 |
|