|
ИНЖИНИРИНГ И ТЕЛЕКОММУНИКАЦИИ
Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market
[Разработка и исследование жесткого алгоритма анализа публикаций в Twitter и их влияния на движение рынка криптовалют]
I. S. Makarov, E. R. Bagantsova, P. A. Iashi, M. D. Kovaleva, E. M. Zakharova Moscow Institute of Physics and Technology,
9 Institutskiy per., Dolgoprudny, Moscow Region, 141701, Russia
Аннотация:
Посты в социальных сетях являются важным индикатором, отображающим положение активов на финансовом
рынке. В статье описывается жесткое решение задачи классификации для определения влияния активности в социальных сетях на движение финансового рынка. Отбираются аккаунты авторитетных в сообществе крипто-трейдеров-инфлюенсеров. В качестве данных используются специальные пакеты сообщений, которые состоят из текстовых постов,
взятых из Twitter. Приведены способы предобработки текста, заключающиеся в лемматизации Stanza и применении
регулярных выражений, для очищения зашумленных текстов, особенностью которых является многочисленное употребление сленговых слов и сокращений. Решается задача бинарной классификации, где слово рассматривается как
элемент вектора единицы данных. Для более точного описания криптовалютной активности ищутся наилучшие параметры разметки для обработки свечей Binance. Методы выявления признаков, необходимых для точного описания
текстовых данных и последующего процесса установления зависимости, представлены в виде машинного обучения
и статистического анализа. В качестве первого используется отбор признаков на основе критерия информативности,
который применяется при разбиении решающего дерева на поддеревья. Такой подход реализован в модели случайного леса и актуален для задачи выбора значимых для «стрижки деревьев» признаков. Второй же основан на жестком
составлении бинарного вектора в ходе грубой проверки наличия либо отсутствия слова в пакете и подсчете суммы
элементов этого вектора. Затем принимается решение в зависимости от преодоления этой суммой порогового значения, базирующегося на уровне, предварительно подобранном с помощью анализа частотного распределения упоминаний слова. Алгоритм, используемый для решения проблемы, был назван бенчмарком и проанализирован в качестве
инструмента. Подобные алгоритмы часто используются в автоматизированных торговых стратегиях. В процессе исследования также описаны наблюдения влияния часто встречающихся в тексте слов, которые используются в качестве
базиса размерностью 2 и 3 при векторизации.
Ключевые слова:
анализ текста, обработка естественного языка, активность в Twitter, частотный анализ, отбор признаков, задача классификации, финансовые рынки, бенчмарк, случайный лес, решающие деревья.
Поступила в редакцию: 01.11.2022 Принята в печать: 23.12.2022
Образец цитирования:
I. S. Makarov, E. R. Bagantsova, P. A. Iashi, M. D. Kovaleva, E. M. Zakharova, “Development of and research into a rigid algorithm for analyzing Twitter publications and its influence on the movements of the cryptocurrency market”, Компьютерные исследования и моделирование, 15:1 (2023), 157–170
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm1051 https://www.mathnet.ru/rus/crm/v15/i1/p157
|
Статистика просмотров: |
Страница аннотации: | 52 | PDF полного текста: | 39 | Список литературы: | 22 |
|