|
Искусственный интеллект, инженерия данных и знаний
Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте
Д. Т. Галеев, В. С. Панищев ФГБОУ ВО Юго-Западный государственный университет (ЮЗГУ)
Аннотация:
Целью исследования является получение более легковесной языковой модели, которая сравнима по показателям EM и F-меры с лучшими современными языковыми моделям в задаче нахождения ответа на вопрос в тексте на русском языке. Результаты работы могут найти применение в различных вопросно-ответных системах, для которых важно время отклика. Поскольку более легковесная модель имеет меньшее количество параметров чем оригинальная, она может быть использована на менее мощных вычислительных устройствах, в том числе и на мобильных устройствах. В настоящей работе используются методы обработки естественного языка, машинного обучения, теории искусственных нейронных сетей. Нейронная сеть настроена и обучена с использованием библиотек машинного обучения Torch и Hugging face. В работе было проведено обучение модели DistilBERT на наборе данных SberQUAD с применением дистилляции и без. Произведено сравнение работы полученных моделей.Обученная в ходе дистилляции модель DistilBERT (EM 58,57 и F-мера 78,42) смогла опередить результаты более крупной генеративной сети ruGPT-3-medium (EM 57,60 и F-мера 77,73) притом, что ruGPT-3-medium имеет в 6,5 раз больше параметров. Также модель продемонстрировала лучшие показатели EM и F-мера, чем та же модель, но к которой применялось только обычное дообучение без дистилляции (EM 55,65, F-мера 76,51). К сожалению, полученная модель сильнее отстаёт от более крупной дискриминационной модели ruBERT (EM 66,83, F-мера 84,95), которая имеет в 3,2 раза больше параметров. Предложены направления для дальнейшего исследования.
Ключевые слова:
машинное обучение, глубокое обучение, нейронные сети, обработка естественного языка, трансформер.
Поступила в редакцию: 09.02.2022
Образец цитирования:
Д. Т. Галеев, В. С. Панищев, “Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте”, Информатика и автоматизация, 21:3 (2022), 521–542
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1199 https://www.mathnet.ru/rus/trspy/v21/i3/p521
|
Статистика просмотров: |
Страница аннотации: | 126 | PDF полного текста: | 156 |
|