Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, том 514, номер 2, страницы 262–269
DOI: https://doi.org/10.31857/S2686954323602063
(Mi danma471)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Большие языковые модели для следования инструкциям на русском языке: модели и датасеты с открытой лицензией для коммерческого использования

Д. Косенкоab, Ю. Куратовabc, Д. Жариковаb

a Московский физико-технический институт, Москва, Россия
b DeepPavlov, Москва, Россия
c AIRI, Москва, Россия
Список литературы:
Аннотация: В данной статье представлен подход к разработке и дообучению больших языковых моделей для русского языка, способных следовать инструкциям в различных доменах. В качестве базовых моделей использованы XGLM-4.5B, LLaMA-1 7B, LLaMA-1 13B, LLaMA-2 7B, LLaMA-2 13B, ruGPT-3.5 13B. В данной работе проводятся сравнения двух основных методик дообучения: дообучение всех параметров модели и дообучение с использованием LoRA слоев. Для создания датасета для дообучения модели использованы несколько открытых источников данных на английском языке, таких как Databricks Dolly 15k, OpenAssistant Conversations Dataset (OASST1), chip2-instruct-alpha-v6a-1, которые затем были переведены на русский язык с помощью модели WMT 21 En-X с лицензией MIT. В данной работе показано, что качество предоставляемых для обучения инструкций существенно влияет на способность решения задач на автоматических метриках качества MT-BENCH и MMLU. При этом качество моделей, обученных на собранном в рамках работы датасете с коммерческой лицензией, достигает сравнимых результатов с моделями, дообученными на датасете Saiga с ограниченной лицензией. Дообученные языковые модели и собранный набор данных для русского языка выложены в открытый доступ с лицензиями, подходящими для коммерческого использования.
Ключевые слова: большие языковые модели, языковые модели, языковые модели для русского языка.
Финансовая поддержка Номер гранта
Правительство Российской Федерации 70-2021-00138
Публикация подготовлена за счет средств гранта на поддержку исследовательских центров и сфере искусственного интеллекта, в том числе в области “сильного” искусственною интеллекта, систем доверенного искусственного интеллекта и этических аспектов применения искусственного интеллекта, предоставленного АНО “Аналитический центр при Правительстве Российской Федерации” в соответствии с соглашением о предоставлении субсидии (идентификатор соглашения о предоставлении субсидии 00000073001P5Q0002) и договором с МФТИ от 1 ноября 2021 г. № 70-2021-00138.
Статья представлена к публикации: А. Л. Семёнов
Поступило: 31.08.2023
После доработки: 30.09.2023
Принято к публикации: 15.10.2023
Англоязычная версия:
Doklady Mathematics, 2023, Volume 108, Issue suppl. 2, Pages S393–S398
DOI: https://doi.org/10.1134/S1064562423701168
Реферативные базы данных:
Тип публикации: Статья
УДК: 0004.8
Образец цитирования: Д. Косенко, Ю. Куратов, Д. Жарикова, “Большие языковые модели для следования инструкциям на русском языке: модели и датасеты с открытой лицензией для коммерческого использования”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 262–269; Dokl. Math., 108:suppl. 2 (2023), S393–S398
Цитирование в формате AMSBIB
\RBibitem{KosKurZha23}
\by Д.~Косенко, Ю.~Куратов, Д.~Жарикова
\paper Большие языковые модели для следования инструкциям на русском языке: модели и датасеты с открытой лицензией для коммерческого использования
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2023
\vol 514
\issue 2
\pages 262--269
\mathnet{http://mi.mathnet.ru/danma471}
\crossref{https://doi.org/10.31857/S2686954323602063}
\elib{https://elibrary.ru/item.asp?id=56717833}
\transl
\jour Dokl. Math.
\yr 2023
\vol 108
\issue suppl. 2
\pages S393--S398
\crossref{https://doi.org/10.1134/S1064562423701168}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma471
  • https://www.mathnet.ru/rus/danma/v514/i2/p262
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:62
    Список литературы:9
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024