В. И. Юферев, Н. А. Разин, “Векторизация текстов на основе word-embedding моделей с использованием кластеризации”, Модел. и анализ информ. систем, 28:3 (2021), 292

Моделирование и анализ информационных систем

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Моделирование и анализ информационных систем, 2021, том 28, номер 3, страницы 292–311
DOI: https://doi.org/10.18255/1818-1015-2021-3-292-311 (Mi mais751)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Theory of data

Векторизация текстов на основе word-embedding моделей с использованием кластеризации

В. И. Юферев^a, Н. А. Разин^b

^a Департамент информационных технологий Центрального банка Российской Федерации, Инновационная лаборатория «Новосибирск», ул. Неглинная, д. 12, г. Москва, 107016 Россия
^b Департамент противодействия недобросовестным практикам, Центральный банк Российской Федерации, ул. Неглинная, д. 12, г. Москва, 107016 Россия

PDF полного текста (814 kB) Список цитирования (1)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.18255/1818-1015-2021-3-292-311

Аннотация: Известно, что в задачах обработки естественного языка представление текстов векторами фиксированной длины с использованием word-embedding моделей оправдано в тех случаях, когда векторизуемые тексты являются короткими. Чем сравниваемые тексты длиннее, тем подход работает хуже. Такая ситуация обусловлена тем, что при использовании word-embedding моделей происходит потеря информации при преобразовании векторных представлений слов, составляющих текст, в векторное представление всего текста, имеющее обычно ту же размерность, что и вектор отдельного слова.
В настоящей работе предлагается альтернативный способ использования предобученных word-embedding моделей для векторизации текстов. Суть предлагаемого способа заключается в объединении семантически близких элементов словаря имеющегося корпуса текстов путем кластеризации их (элементов словаря) эмбеддингов, в результате чего формируется новый словарь размером меньше исходного, каждый элемент которого соответствует одному кластеру. Исходный корпус текстов переформулируется в терминах этого нового словаря, после чего на переформулированных текстах выполняется векторизация одним из словарных подходов (в работе применялся TF-IDF). Полученное векторное представление текста дополнительно может обогащаться с использованием векторов слов исходного словаря, полученных путем уменьшения размерности их эмбеддингов по каждому кластеру.В работе описана серия экспериментов по определению оптимальных параметров предлагаемого подхода; для задачи ранжирования текстов приведено сравнение подхода с другими способами векторизации — усреднением эмбеддингов слов со взвешиванием по TF-IDF и без взвешивания, а также с векторизацией на основе TF-IDF коэффициентов.

Ключевые слова: эмбеддинговые модели, Fasttext, TF-IDF, усреднение, кластеризация, семантическое сходство текстов, определение расстояний, ранжирование текстов.

Поступила в редакцию: 23.06.2021
Исправленный вариант: 16.08.2021
Принята в печать: 25.08.2021

Тип публикации: Статья

УДК: 004.8

MSC: 97R40, 68T50

Образец цитирования: В. И. Юферев, Н. А. Разин, “Векторизация текстов на основе word-embedding моделей с использованием кластеризации”, Модел. и анализ информ. систем, 28:3 (2021), 292–311

Цитирование в формате AMSBIB

\RBibitem{YufRaz21}

\by В.~И.~Юферев, Н.~А.~Разин

\paper Векторизация текстов на основе word-embedding моделей с использованием кластеризации

\jour Модел. и анализ информ. систем

\yr 2021

\vol 28

\issue 3

\pages 292--311

\mathnet{http://mi.mathnet.ru/mais751}

\crossref{https://doi.org/10.18255/1818-1015-2021-3-292-311}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/mais751

https://www.mathnet.ru/rus/mais/v28/i3/p292

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Моделирование и анализ информационных систем

Статистика просмотров:
Страница аннотации:	152
PDF полного текста:	62
Список литературы:	35

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы