|
СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
SciRus: легкий и мощный мультиязычный энкодер для научных текстов
Н. А. Герасименкоabc, А. С. Ватолинbc, А. О. Янинаd, К. В. Воронцовbcd a SberAI, Москва, Россия
b Институт искусственного интеллекта МГУ им. М. В. Ломоносова, Москва, Россия
c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
d Московский физико-технический институт (национальный исследовательский университет), Московская облаcть, г. Долгопрудный
Аннотация:
Семантические векторные представления текстов широко используются для построения эффективных систем информационного поиска, в том числе, в научном домене. Для того, чтобы научные данные были более доступными, важно, чтобы такие системы поддерживали мультиязычный поиск, не требуя при этом больших вычислительных ресурсов. Для решения этой задачи мы представляем SciRus-tiny, легкий мультиязычный энкодер, обученный с нуля на 44 млн аннотаций научных статей (15 млрд токенов) и затем дообученный в контрастивном стиле с использованием данных о цитировании. SciRus-tiny превосходит по качеству SciNCL, англоязычную SOTA-модель для получения эмбеддингов научных текстов, на 13 из 24 задачах бенчмарка SciRepEval. При этом на 7 из них достигается SOTA-результат. При этом SciRus-tiny гораздо более эффективен: он меньше более чем в 5 раз (23 млн параметров против 110 млн), имеет более чем в 2 раза меньшую размерность эмбеддингов (312 против 768) и в 2 раза большую длину контекста (1024 против 512). В дополнение к SciRus-tiny мы публикуем модель SciRus-small (61 млн параметров и 768 размерность эмбеддинга), более мощную модель, которая может быть использована для решения более сложных задач. Мы также исследовали различные подходы к контрастивному дообучению, показав, что близкие к SOTA результаты могут быть достигнуты без данных о цитировании, только с использованием пар название-аннотация.
Ключевые слова:
информационный поиск, анализ и интерпретируемость языковых моделей, большие языковые модели, семантические векторные представления.
Поступило: 27.09.2024 Принято к публикации: 02.10.2024
Образец цитирования:
Н. А. Герасименко, А. С. Ватолин, А. О. Янина, К. В. Воронцов, “SciRus: легкий и мощный мультиязычный энкодер для научных текстов”, Докл. РАН. Матем., информ., проц. упр., 520:2 (2024), 216–227; Dokl. Math., 110:suppl. 2 (2024), S193–S202
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma601 https://www.mathnet.ru/rus/danma/v520/i2/p216
|
Статистика просмотров: |
Страница аннотации: | 16 |
|