|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Theory of data
Векторизация текстов на основе word-embedding моделей с использованием кластеризации
В. И. Юферевa, Н. А. Разинb a Департамент информационных технологий Центрального банка Российской Федерации, Инновационная лаборатория
«Новосибирск», ул. Неглинная, д. 12, г. Москва, 107016 Россия
b Департамент противодействия недобросовестным практикам, Центральный банк Российской Федерации, ул. Неглинная,
д. 12, г. Москва, 107016 Россия
Аннотация:
Известно, что в задачах обработки естественного языка представление текстов векторами фиксированной длины с использованием word-embedding моделей оправдано в тех случаях, когда векторизуемые тексты являются короткими. Чем сравниваемые тексты длиннее, тем подход работает хуже. Такая ситуация обусловлена тем, что при использовании word-embedding моделей происходит потеря информации при преобразовании векторных представлений слов, составляющих текст, в векторное представление всего текста, имеющее обычно ту же размерность, что и вектор отдельного слова.
В настоящей работе предлагается альтернативный способ использования предобученных word-embedding моделей для векторизации текстов. Суть предлагаемого способа заключается в объединении семантически близких элементов словаря имеющегося корпуса текстов путем кластеризации их (элементов словаря) эмбеддингов, в результате чего формируется новый словарь размером меньше исходного, каждый элемент которого соответствует одному кластеру. Исходный корпус текстов переформулируется в терминах этого нового словаря, после чего на переформулированных текстах выполняется векторизация одним из словарных подходов (в работе применялся TF-IDF). Полученное векторное представление текста дополнительно может обогащаться с использованием векторов слов исходного словаря, полученных путем уменьшения размерности их эмбеддингов по каждому кластеру.В работе описана серия экспериментов по определению оптимальных параметров предлагаемого подхода; для задачи ранжирования текстов приведено сравнение подхода с другими способами векторизации — усреднением эмбеддингов слов со взвешиванием по TF-IDF и без взвешивания, а также с векторизацией на основе TF-IDF коэффициентов.
Ключевые слова:
эмбеддинговые модели, Fasttext, TF-IDF, усреднение, кластеризация, семантическое сходство текстов, определение расстояний, ранжирование текстов.
Поступила в редакцию: 23.06.2021 Исправленный вариант: 16.08.2021 Принята в печать: 25.08.2021
Образец цитирования:
В. И. Юферев, Н. А. Разин, “Векторизация текстов на основе word-embedding моделей с использованием кластеризации”, Модел. и анализ информ. систем, 28:3 (2021), 292–311
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/mais751 https://www.mathnet.ru/rus/mais/v28/i3/p292
|
Статистика просмотров: |
Страница аннотации: | 138 | PDF полного текста: | 62 | Список литературы: | 32 |
|