Семинары
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Календарь
Поиск
Регистрация семинара

RSS
Ближайшие семинары




Ежемесячный семинар Московской cекции ACM SIGMOD
25 мая 2017 г. 16:20–19:00, г. Москва, ВМиК МГУ
 


Потоковая обработка данных: история, проблемы и тенденции развития

Р. С. Самарев

Московский государственный технический университет имени Н. Э. Баумана
Дополнительные материалы:
Adobe PDF 2.4 Mb

Количество просмотров:
Эта страница:169
Материалы:66

Аннотация: Тема потоковой обработки и анализа данных актуальна для исследований и разработки уже многие десятки лет. Однако, если ранее средства для потокового анализа и обработки данных представляли собой узкоспециализированные решения, то на волне "анализа больших данных" и интенсивного развития "дешевых" вычислительных кластеров, фактически, реанимирована идея создания общедоступных средств, которые можно использовать для создания систем потоковой обработки данных. Интернет и бизнес, построенный с его использованием, порождает огромные потоки данных. Часто эти данные не требуют долговременного хранения, или же требуется как можно более оперативный анализ данных от момента их получения.
Попытки построения средств для создания систем (фреймворков) обработки данных предпринимались и 30 лет назад, но тогда это были специализированные коммерческие решения с разнообразием языков, технологий и принципов построения. Сейчас же следует говорить о реализации вполне сформировавшихся технологических архитектур и наборе взаимозаменяемых средств, в качестве примеров которых можно назвать проекты фонда Apache: Kafka, Storm, Samza, Flink, Apex, Spark, Ignite и многие другие. Пути, которые привели разработчиков этих продуктов к обработке именно потоков данных, различны. Это создаёт проблему выбора того или иного фреймворка для решения конкретной задачи. И именно это разработчики фреймворков пытаются скрыть от пользователей.
В докладе рассматривается история развития области потоковой обработки данных, ранние экспериментальные разработки, языки и технологии, проблемы и тенденции развития. Рассматриваются типовые особенности архитектуры потоковых фреймворков и их бизнес-применения. Особое внимание уделяется критериям оценки средств потоковой обработки данных при принятии решения их использования в бизнес-задачах.

Дополнительные материалы: 2017.05.25_samarev.pdf (2.4 Mb)

Website: https://synthesis.ipi.ac.ru/sigmod/seminar/s20170525.html

Список литературы
  1. Lukasz Golab and M. Tamer Özsu, “Issues in data stream management”, SIGMOD Record, 32:2, June (2003), 5–14, ACM, NY  crossref
  2. Michael Stonebraker, Uǧur Çetintemel, and Stan Zdonik, “The 8 requirements of real-time stream processing”, SIGMOD Record, 34:4, December (2005), 42–47, ACM, NY http://citforum.ru/database/articles/stream_8_req/  crossref
  3. Henrique C. M. Andrade, Bugra Gedik, and Deepak S. Turaga, Fundamentals of Stream Processing: Application Design, Systems, and Analytics, Cambrige University Press, N. Y., 2014
  4. Nathan Marz and James Warren, Big Data: Principles and Best Practices of Scalable Realtime Data Systems, Manning, Greenwich, CT, USA, 2015
  5. Ian Hellström, An Overview of Apache Streaming Technologies, 2016 https://databaseline.bitbucket.io/an-overview-of-apache-streaming-technologies/
  6. Р. С. Самарев, “Обзор состояния области потоковой обработки данных”, Труды ИСП РАН, 29:1 (2017), 231–260  mathnet  crossref
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024