Д. Т. Галеев, В. С. Панищев, “Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте”, Информатика и автоматизация, 21:3 (2022), 521

Информатика и автоматизация

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Информатика и автоматизация, 2022, выпуск 21, том 3, страницы 521–542
DOI: https://doi.org/10.15622/ia.21.3.3 (Mi trspy1199)

Искусственный интеллект, инженерия данных и знаний

Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте

Д. Т. Галеев, В. С. Панищев

ФГБОУ ВО Юго-Западный государственный университет (ЮЗГУ)

PDF полного текста (1362 kB)

DOI: https://doi.org/10.15622/ia.21.3.3

Аннотация: Целью исследования является получение более легковесной языковой модели, которая сравнима по показателям EM и F-меры с лучшими современными языковыми моделям в задаче нахождения ответа на вопрос в тексте на русском языке. Результаты работы могут найти применение в различных вопросно-ответных системах, для которых важно время отклика. Поскольку более легковесная модель имеет меньшее количество параметров чем оригинальная, она может быть использована на менее мощных вычислительных устройствах, в том числе и на мобильных устройствах. В настоящей работе используются методы обработки естественного языка, машинного обучения, теории искусственных нейронных сетей. Нейронная сеть настроена и обучена с использованием библиотек машинного обучения Torch и Hugging face. В работе было проведено обучение модели DistilBERT на наборе данных SberQUAD с применением дистилляции и без. Произведено сравнение работы полученных моделей.Обученная в ходе дистилляции модель DistilBERT (EM 58,57 и F-мера 78,42) смогла опередить результаты более крупной генеративной сети ruGPT-3-medium (EM 57,60 и F-мера 77,73) притом, что ruGPT-3-medium имеет в 6,5 раз больше параметров. Также модель продемонстрировала лучшие показатели EM и F-мера, чем та же модель, но к которой применялось только обычное дообучение без дистилляции (EM 55,65, F-мера 76,51). К сожалению, полученная модель сильнее отстаёт от более крупной дискриминационной модели ruBERT (EM 66,83, F-мера 84,95), которая имеет в 3,2 раза больше параметров. Предложены направления для дальнейшего исследования.

Ключевые слова: машинное обучение, глубокое обучение, нейронные сети, обработка естественного языка, трансформер.

Поступила в редакцию: 09.02.2022

Тип публикации: Статья

УДК: 004.912

Образец цитирования: Д. Т. Галеев, В. С. Панищев, “Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте”, Информатика и автоматизация, 21:3 (2022), 521–542

Цитирование в формате AMSBIB

\RBibitem{GalPan22}

\by Д.~Т.~Галеев, В.~С.~Панищев

\paper Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте

\jour Информатика и автоматизация

\yr 2022

\vol 21

\issue 3

\pages 521--542

\mathnet{http://mi.mathnet.ru/trspy1199}

\crossref{https://doi.org/10.15622/ia.21.3.3}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1199

https://www.mathnet.ru/rus/trspy/v21/i3/p521

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Статистика просмотров:
Страница аннотации:	126
PDF полного текста:	156

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы