D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov, “High performance distributed web-scraper”, Труды ИСП РАН, 33:3 (2021), 87

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2021, том 33, выпуск 3, страницы 87–100
DOI: https://doi.org/10.15514/ISPRAS-2021-33(3)-7 (Mi tisp601)

High performance distributed web-scraper

[Высокопроизводительный распределенный веб-скрапер]

D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov

Peter the Great St.Petersburg Polytechnic University

PDF полного текста (454 kB)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.15514/ISPRAS-2021-33(3)-7

Аннотация: За последнее десятилетие Интернет стал гигантским и богатейшим источником данных. Данные используются для извлечения знаний путем выполнения машинного анализа. Чтобы выполнить интеллектуальный анализ данных веб-информации, данные должны быть извлечены из источника и помещены в аналитическое хранилище. Это ETL-процесс. Разные веб-источники имеют разные способы доступа к своим данным: либо API по протоколу HTTP, либо парсинг исходного кода HTML. Статья посвящена подходу к высокопроизводительному извлечению данных из источников, не имеющих API для доступа к данным. Отличительными особенностями предлагаемого подхода являются: балансировка нагрузки, двухуровневая подсистема данных и отделение процесса загрузки файлов от процесса парсинга. Подход реализован в решении со следующими технологиями: Docker, Kubernetes, Scrapy, Python, MongoDB, Redis Cluster и СephFS. Результаты тестирования решения также описаны в этой статье.

Ключевые слова: веб-скрапинг, веб-краулинг, распределенный сбор данных, распределенный анализ данных.

Тип публикации: Статья

Язык публикации: английский

Образец цитирования: D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov, “High performance distributed web-scraper”, Труды ИСП РАН, 33:3 (2021), 87–100

Цитирование в формате AMSBIB

\RBibitem{EyzRamNik21}

\by D.~S.~Eyzenakh, A.~S.~Rameykov, I.~V.~Nikiforov

\paper High performance distributed web-scraper

\jour Труды ИСП РАН

\yr 2021

\vol 33

\issue 3

\pages 87--100

\mathnet{http://mi.mathnet.ru/tisp601}

\crossref{https://doi.org/10.15514/ISPRAS-2021-33(3)-7}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp601

https://www.mathnet.ru/rus/tisp/v33/i3/p87

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Статистика просмотров:
Страница аннотации:	168
PDF полного текста:	332
Список литературы:	40

Что такое QR-код?

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы