Т. Е. Горбачева, И. Ю. Бондаренко, “Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 375–384; Dokl. Math., 108:suppl. 2 (2023), S494

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 375–384
DOI: https://doi.org/10.31857/S2686954323601860 (Mi danma481)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке

Т. Е. Горбачева, И. Ю. Бондаренко

Новосибирский государственный университет, Новосибирск, Россия

Список литературы:

PDF

HTML

DOI: https://doi.org/10.31857/S2686954323601860

Аннотация: В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.

Ключевые слова: методы глубокого обучения, трансформеры, предварительное обучение, автоматическое создание текста, глубокие языковые модели, синтетические данные, “безопасность” нейросети.

Статья представлена к публикации: А. Л. Семёнов
Поступило: 03.09.2023
После доработки: 15.09.2023
Принято к публикации: 24.10.2023

Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S494–S502
DOI: https://doi.org/10.1134/S1064562423701636

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.8

Образец цитирования: Т. Е. Горбачева, И. Ю. Бондаренко, “Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 375–384; Dokl. Math., 108:suppl. 2 (2023), S494–S502

Цитирование в формате AMSBIB

\RBibitem{GorBon23}

\by Т.~Е.~Горбачева, И.~Ю.~Бондаренко

\paper Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2023

\vol 514

\issue 2

\pages 375--384

\mathnet{http://mi.mathnet.ru/danma481}

\crossref{https://doi.org/10.31857/S2686954323601860}

\elib{https://elibrary.ru/item.asp?id=56717861}

\transl

\jour Dokl. Math.

\yr 2023

\vol 108

\issue suppl. 2

\pages S494--S502

\crossref{https://doi.org/10.1134/S1064562423701636}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma481

https://www.mathnet.ru/rus/danma/v514/i2/p375

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Статистика просмотров:
Страница аннотации:	69
Список литературы:	23

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы