Семинары: Р. С. Самарев, Потоковая обработка данных: история, проблемы и тенденции развития

Семинары

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Календарь
	Поиск
	Регистрация семинара

	RSS
	Ближайшие семинары

Ежемесячный семинар Московской cекции ACM SIGMOD
25 мая 2017 г. 16:20–19:00, г. Москва, ВМиК МГУ

Потоковая обработка данных: история, проблемы и тенденции развития

Р. С. Самарев

Московский государственный технический университет имени Н. Э. Баумана

*Дополнительные материалы:*
	Adobe PDF	2.4 Mb

Количество просмотров:
Эта страница:	169
Материалы:	66

Аннотация: Тема потоковой обработки и анализа данных актуальна для исследований и разработки уже многие десятки лет. Однако, если ранее средства для потокового анализа и обработки данных представляли собой узкоспециализированные решения, то на волне "анализа больших данных" и интенсивного развития "дешевых" вычислительных кластеров, фактически, реанимирована идея создания общедоступных средств, которые можно использовать для создания систем потоковой обработки данных. Интернет и бизнес, построенный с его использованием, порождает огромные потоки данных. Часто эти данные не требуют долговременного хранения, или же требуется как можно более оперативный анализ данных от момента их получения.
Попытки построения средств для создания систем (фреймворков) обработки данных предпринимались и 30 лет назад, но тогда это были специализированные коммерческие решения с разнообразием языков, технологий и принципов построения. Сейчас же следует говорить о реализации вполне сформировавшихся технологических архитектур и наборе взаимозаменяемых средств, в качестве примеров которых можно назвать проекты фонда Apache: Kafka, Storm, Samza, Flink, Apex, Spark, Ignite и многие другие. Пути, которые привели разработчиков этих продуктов к обработке именно потоков данных, различны. Это создаёт проблему выбора того или иного фреймворка для решения конкретной задачи. И именно это разработчики фреймворков пытаются скрыть от пользователей.
В докладе рассматривается история развития области потоковой обработки данных, ранние экспериментальные разработки, языки и технологии, проблемы и тенденции развития. Рассматриваются типовые особенности архитектуры потоковых фреймворков и их бизнес-применения. Особое внимание уделяется критериям оценки средств потоковой обработки данных при принятии решения их использования в бизнес-задачах.

Дополнительные материалы:

2017.05.25_samarev.pdf (2.4 Mb)

Website: https://synthesis.ipi.ac.ru/sigmod/seminar/s20170525.html

Список литературы

Lukasz Golab and M. Tamer Özsu, “Issues in data stream management”, SIGMOD Record, 32:2, June (2003), 5–14, ACM, NY
Michael Stonebraker, Uǧur Çetintemel, and Stan Zdonik, “The 8 requirements of real-time stream processing”, SIGMOD Record, 34:4, December (2005), 42–47, ACM, NY http://citforum.ru/database/articles/stream_8_req/
Henrique C. M. Andrade, Bugra Gedik, and Deepak S. Turaga, Fundamentals of Stream Processing: Application Design, Systems, and Analytics, Cambrige University Press, N. Y., 2014
Nathan Marz and James Warren, Big Data: Principles and Best Practices of Scalable Realtime Data Systems, Manning, Greenwich, CT, USA, 2015
Ian Hellström, An Overview of Apache Streaming Technologies, 2016 https://databaseline.bitbucket.io/an-overview-of-apache-streaming-technologies/
Р. С. Самарев, “Обзор состояния области потоковой обработки данных”, Труды ИСП РАН, 29:1 (2017), 231–260

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы