Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2023, том 30, номер 4, страницы 418–428
DOI: https://doi.org/10.18255/1818-1015-2023-4-418-428
(Mi mais812)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Artificial intelligence

Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5

А. В. Глазковаab, Д. А. Морозовac, М. С. Воробьеваb, А. А. Ступниковb

a Институт проблем передачи информации РАН им. А. А. Харкевича, Большой Каретный переулок, д. 19, стр. 1, г. Москва, 127051, Россия
b Тюменский государственный университет, ул. Володарского, д. 6, г. Тюмень, 625003, Россия
c Новосибирский национальный исследовательский государственный университет, ул. Пирогова, д. 1, г. Новосибирск, 630090, Россия
Список литературы:
Аннотация: Авторами предлагается подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian. Автоматический подбор ключевых слов является актуальной задачей обработки естественного языка, поскольку ключевые слова помогают читателям осуществлять поиск статей и облегчают систематизацию научных текстов. В данной работе задача подбора ключевых слов рассматривается как задача автоматического реферирования текстов. Дообучение mT5 осуществлялась на текстах аннотаций русскоязычных научных статей. В качестве входных и выходных данных выступали тексты аннотаций и списки ключевых слов, разделенных запятыми, соответственно. Результаты, полученные с помощью mT5, были сравнены с результатами нескольких базовых методов: TopicRank, YAKE!, RuTermExtract, и KeyBERT. Для представления результатов использовались следующие метрики: F-мера, ROUGE-1, BERTScore. Лучшие результаты на тестовой выборке были получены с помощью mT5 и RuTermExtract. Наиболее высокое значение F-меры продемонстрировала модель mT5 (11.24 %), превзойдя RuTermExtract на 0.22 %. RuTermExtract показал лучший результат по метрике ROUGE-1 (15.12 %). Лучшие результаты по BERTScore также были достигнуты этими двумя методами: mT5 — 76.89 % (BERTScore, использующая модель mBERT), RuTermExtract — 75.8 % (BERTScore на основе ruSciBERT). Также авторами была оценена возможность mT5 генерировать ключевые слова, отсутствующие в исходном тексте. К ограничениям предложенного подхода относятся необходимость формирования обучающей выборки для дообучения модели и, вероятно, ограниченная применимость дообученной модели для текстов других предметных областей. Преимущества генерации ключевых слов с помощью mT5 — отсутствие необходимости задавать фиксированные значения длины и количества ключевых слов, необходимости проводить нормализацию, что особенно важно для флективных языков, и возможность генерировать ключевые слова, в явном виде отсутствующие в тексте.
Ключевые слова: автоматическое реферирование, подбор ключевых слов, mT5.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации МК-3118.2022.4
Работа выполнена в рамках проекта № МК-3118.2022.4, поддержанного грантом Президента Российской Федерации для молодых ученых — кандидатов наук.
Поступила в редакцию: 13.11.2023
Исправленный вариант: 22.11.2023
Принята в печать: 29.11.2023
Тип публикации: Статья
УДК: 004.912
MSC: 68T50
Образец цитирования: А. В. Глазкова, Д. А. Морозов, М. С. Воробьева, А. А. Ступников, “Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5”, Модел. и анализ информ. систем, 30:4 (2023), 418–428
Цитирование в формате AMSBIB
\RBibitem{GlaMorVor23}
\by А.~В.~Глазкова, Д.~А.~Морозов, М.~С.~Воробьева, А.~А.~Ступников
\paper Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5
\jour Модел. и анализ информ. систем
\yr 2023
\vol 30
\issue 4
\pages 418--428
\mathnet{http://mi.mathnet.ru/mais812}
\crossref{https://doi.org/10.18255/1818-1015-2023-4-418-428}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais812
  • https://www.mathnet.ru/rus/mais/v30/i4/p418
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:52
    PDF полного текста:28
    Список литературы:10
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024