Записки научных семинаров ПОМИ
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Зап. научн. сем. ПОМИ:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Записки научных семинаров ПОМИ, 2023, том 529, страницы 54–71 (Mi znsl7419)  

Monolingual and cross-lingual knowledge transfer for topic classification
[Моноязыковой и межязыковой перенос знаний для задачи тематической классификации]

D. Karpova, M. Burtsevb

a Moscow Institute of Physics and Technology, Dolgoprudny, Russia
b London Institute for Mathematical Sciences, London, United Kingdom
Список литературы:
Аннотация: В этой работе мы исследуем перенос знаний из набора данных RuQTopics. Этот русскоязычный тематический набор данных сочетает в себе большое количество точек данных (361560 текстов с одной меткой, 170930 – с несколькими метками) с обширным охватом классов (76 классов). Мы подготовили этот набор данных на основе необработанных данных {Yandex Que}. Оценивая модели, обученные на RuQTopics, на шести соответствующих классах из русскоязычного подмножества набора данных MASSIVE, мы показываем, что набор данных RuQTopics подходит для реальных диалоговых задач, поскольку модели, предназначенные только для русского языка, после обучения на этом наборе данных показывают точность около 85% на этом подмножестве. Мы также обнаружили, что для многоязычного BERT, обученного на RuQTopics и оцененного на тех же шести классах MASSIVE (для всех языков датасета MASSIVE), языковая точность тесно коррелирует (корреляция Спирмена 0.773 с p-значением 2.997e-11) с приблизительным размером данных для предобучения BERT на соответствующем языке. В то же время корреляция точности с языковой дистанцией от русского языка не является статистически значимой. Библ. – 33 назв.
Ключевые слова: датасет, тематическая классификация, перенос знаний, межязыковой перенос знаний.
Поступило: 06.09.2023
Тип публикации: Статья
УДК: 81.322.2
Язык публикации: английский
Образец цитирования: D. Karpov, M. Burtsev, “Monolingual and cross-lingual knowledge transfer for topic classification”, Исследования по прикладной математике и информатике. II–1, Зап. научн. сем. ПОМИ, 529, ПОМИ, СПб., 2023, 54–71
Цитирование в формате AMSBIB
\RBibitem{KarBur23}
\by D.~Karpov, M.~Burtsev
\paper Monolingual and cross-lingual knowledge transfer for topic classification
\inbook Исследования по прикладной математике и информатике.~II--1
\serial Зап. научн. сем. ПОМИ
\yr 2023
\vol 529
\pages 54--71
\publ ПОМИ
\publaddr СПб.
\mathnet{http://mi.mathnet.ru/znsl7419}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/znsl7419
  • https://www.mathnet.ru/rus/znsl/v529/p54
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Записки научных семинаров ПОМИ
    Статистика просмотров:
    Страница аннотации:26
    PDF полного текста:6
    Список литературы:11
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024