|
СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке
Т. Е. Горбачева, И. Ю. Бондаренко Новосибирский государственный университет, Новосибирск, Россия
Аннотация:
В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.
Ключевые слова:
методы глубокого обучения, трансформеры, предварительное обучение, автоматическое создание текста, глубокие языковые модели, синтетические данные, “безопасность” нейросети.
Образец цитирования:
Т. Е. Горбачева, И. Ю. Бондаренко, “Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 375–384; Dokl. Math., 108:suppl. 2 (2023), S494–S502
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma481 https://www.mathnet.ru/rus/danma/v514/i2/p375
|
Статистика просмотров: |
Страница аннотации: | 57 | Список литературы: | 18 |
|