Моделирование и анализ информационных систем
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Моделирование и анализ информационных систем, 2021, том 28, номер 3, страницы 292–311
DOI: https://doi.org/10.18255/1818-1015-2021-3-292-311
(Mi mais751)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Векторизация текстов на основе word-embedding моделей с использованием кластеризации

В. И. Юферевa, Н. А. Разинb

a Департамент информационных технологий Центрального банка Российской Федерации, Инновационная лаборатория «Новосибирск», ул. Неглинная, д. 12, г. Москва, 107016 Россия
b Департамент противодействия недобросовестным практикам, Центральный банк Российской Федерации, ул. Неглинная, д. 12, г. Москва, 107016 Россия
Список литературы:
Аннотация: Известно, что в задачах обработки естественного языка представление текстов векторами фиксированной длины с использованием word-embedding моделей оправдано в тех случаях, когда векторизуемые тексты являются короткими. Чем сравниваемые тексты длиннее, тем подход работает хуже. Такая ситуация обусловлена тем, что при использовании word-embedding моделей происходит потеря информации при преобразовании векторных представлений слов, составляющих текст, в векторное представление всего текста, имеющее обычно ту же размерность, что и вектор отдельного слова.
В настоящей работе предлагается альтернативный способ использования предобученных word-embedding моделей для векторизации текстов. Суть предлагаемого способа заключается в объединении семантически близких элементов словаря имеющегося корпуса текстов путем кластеризации их (элементов словаря) эмбеддингов, в результате чего формируется новый словарь размером меньше исходного, каждый элемент которого соответствует одному кластеру. Исходный корпус текстов переформулируется в терминах этого нового словаря, после чего на переформулированных текстах выполняется векторизация одним из словарных подходов (в работе применялся TF-IDF). Полученное векторное представление текста дополнительно может обогащаться с использованием векторов слов исходного словаря, полученных путем уменьшения размерности их эмбеддингов по каждому кластеру.В работе описана серия экспериментов по определению оптимальных параметров предлагаемого подхода; для задачи ранжирования текстов приведено сравнение подхода с другими способами векторизации — усреднением эмбеддингов слов со взвешиванием по TF-IDF и без взвешивания, а также с векторизацией на основе TF-IDF коэффициентов.
Ключевые слова: эмбеддинговые модели, Fasttext, TF-IDF, усреднение, кластеризация, семантическое сходство текстов, определение расстояний, ранжирование текстов.
Поступила в редакцию: 23.06.2021
Исправленный вариант: 16.08.2021
Принята в печать: 25.08.2021
Тип публикации: Статья
УДК: 004.8
MSC: 97R40, 68T50
Образец цитирования: В. И. Юферев, Н. А. Разин, “Векторизация текстов на основе word-embedding моделей с использованием кластеризации”, Модел. и анализ информ. систем, 28:3 (2021), 292–311
Цитирование в формате AMSBIB
\RBibitem{YufRaz21}
\by В.~И.~Юферев, Н.~А.~Разин
\paper Векторизация текстов на основе word-embedding моделей с использованием кластеризации
\jour Модел. и анализ информ. систем
\yr 2021
\vol 28
\issue 3
\pages 292--311
\mathnet{http://mi.mathnet.ru/mais751}
\crossref{https://doi.org/10.18255/1818-1015-2021-3-292-311}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mais751
  • https://www.mathnet.ru/rus/mais/v28/i3/p292
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Моделирование и анализ информационных систем
    Статистика просмотров:
    Страница аннотации:152
    PDF полного текста:62
    Список литературы:35
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024