Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления, 2017, том 13, выпуск 3, страницы 313–325
DOI: https://doi.org/10.21638/11701/spbu10.2017.308
(Mi vspui341)
 

Информатика

Выделение текстовых трендов в социальной сети OK

Е. А. Малютин, Д. Ю. Бугайченко, А. Н. Мишенин

Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9
Список литературы:
Аннотация: Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой:
  • текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку;
  • пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализу медиапространства требует привлечения большого количества высокооплачиваемых специалистов;
  • учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени;
  • социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента.
Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент:
  • пакетный компонент, реализованный на основе фреймворка Apache Spark;
  • потоковый компонент, реализованный на основе Apache Samza;
  • mini-batch-компонент, реализованный на основе Spark Streaming.
В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.
Ключевые слова: анализ естественного языка, выделение трендов, большие данные.
Поступила: 5 марта 2017 г.
Принята к печати: 8 июня 2017 г.
Реферативные базы данных:
Тип публикации: Статья
УДК: 519.688
Образец цитирования: Е. А. Малютин, Д. Ю. Бугайченко, А. Н. Мишенин, “Выделение текстовых трендов в социальной сети OK”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 13:3 (2017), 313–325
Цитирование в формате AMSBIB
\RBibitem{MalBugMis17}
\by Е.~А.~Малютин, Д.~Ю.~Бугайченко, А.~Н.~Мишенин
\paper Выделение текстовых трендов в социальной сети~OK
\jour Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр.
\yr 2017
\vol 13
\issue 3
\pages 313--325
\mathnet{http://mi.mathnet.ru/vspui341}
\crossref{https://doi.org/10.21638/11701/spbu10.2017.308}
\elib{https://elibrary.ru/item.asp?id=30102290}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vspui341
  • https://www.mathnet.ru/rus/vspui/v13/i3/p313
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления
    Статистика просмотров:
    Страница аннотации:138
    PDF полного текста:25
    Список литературы:20
    Первая страница:6
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024