Н. А. Герасименко, А. С. Ватолин, А. О. Янина, К. В. Воронцов, “SciRus: легкий и мощный мультиязычный энкодер для научных текстов”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 216–227; Dokl. Math., 110:suppl. 2 (2024), S193

Доклады Российской академии наук. Математика, информатика, процессы управления

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Доклады Российской академии наук. Математика, информатика, процессы управления, 2024, том 520, номер 2, страницы 216–227
DOI: https://doi.org/10.31857/S2686954324700589 (Mi danma601)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

SciRus: легкий и мощный мультиязычный энкодер для научных текстов

Н. А. Герасименко^abc, А. С. Ватолин^bc, А. О. Янина^d, К. В. Воронцов^bcd

^a SberAI, Москва, Россия
^b Институт искусственного интеллекта МГУ им. М. В. Ломоносова, Москва, Россия
^c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
^d Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный

DOI: https://doi.org/10.31857/S2686954324700589

Аннотация: Семантические векторные представления текстов широко используются для построения эффективных систем информационного поиска, в том числе, в научном домене. Для того, чтобы научные данные были более доступными, важно, чтобы такие системы поддерживали мультиязычный поиск, не требуя при этом больших вычислительных ресурсов. Для решения этой задачи мы представляем SciRus-tiny, легкий мультиязычный энкодер, обученный с нуля на 44 млн аннотаций научных статей (15 млрд токенов) и затем дообученный в контрастивном стиле с использованием данных о цитировании. SciRus-tiny превосходит по качеству SciNCL, англоязычную SOTA-модель для получения эмбеддингов научных текстов, на 13 из 24 задачах бенчмарка SciRepEval. При этом на 7 из них достигается SOTA-результат. При этом SciRus-tiny гораздо более эффективен: он меньше более чем в 5 раз (23 млн параметров против 110 млн), имеет более чем в 2 раза меньшую размерность эмбеддингов (312 против 768) и в 2 раза большую длину контекста (1024 против 512). В дополнение к SciRus-tiny мы публикуем модель SciRus-small (61 млн параметров и 768 размерность эмбеддинга), более мощную модель, которая может быть использована для решения более сложных задач. Мы также исследовали различные подходы к контрастивному дообучению, показав, что близкие к SOTA результаты могут быть достигнуты без данных о цитировании, только с использованием пар название-аннотация.

Ключевые слова: информационный поиск, анализ и интерпретируемость языковых моделей, большие языковые модели, семантические векторные представления.

Поступило: 27.09.2024
Принято к публикации: 02.10.2024

Англоязычная версия:
Doklady Mathematics, 2024, Volume 110, Issue suppl. 2, Pages S193–S202
DOI: https://doi.org/10.1134/S1064562424602178

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.048

Образец цитирования: Н. А. Герасименко, А. С. Ватолин, А. О. Янина, К. В. Воронцов, “SciRus: легкий и мощный мультиязычный энкодер для научных текстов”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 216–227; Dokl. Math., 110:suppl. 2 (2024), S193–S202

Цитирование в формате AMSBIB

\RBibitem{GerVatYan24}

\by Н.~А.~Герасименко, А.~С.~Ватолин, А.~О.~Янина, К.~В.~Воронцов

\paper SciRus: легкий и мощный мультиязычный энкодер для научных текстов

\jour Докл. РАН. Матем., информ., проц. упр.

\yr 2024

\vol 520

\issue 2

\pages 216--227

\mathnet{http://mi.mathnet.ru/danma601}

\crossref{https://doi.org/10.31857/S2686954324700589}

\elib{https://elibrary.ru/item.asp?id=80287449}

\transl

\jour Dokl. Math.

\yr 2024

\vol 110

\issue suppl. 2

\pages S193--S202

\crossref{https://doi.org/10.1134/S1064562424602178}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/danma601

https://www.mathnet.ru/rus/danma/v520/i2/p216

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Доклады Российской академии наук. Математика, информатика, процессы управления

Статистика просмотров:
Страница аннотации:	16

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы