|
High performance distributed web-scraper
[Высокопроизводительный распределенный веб-скрапер]
D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov Peter the Great St.Petersburg Polytechnic University
Аннотация:
За последнее десятилетие Интернет стал гигантским и богатейшим источником данных. Данные используются для извлечения знаний путем выполнения машинного анализа. Чтобы выполнить интеллектуальный анализ данных веб-информации, данные должны быть извлечены из источника и помещены в аналитическое хранилище. Это ETL-процесс. Разные веб-источники имеют разные способы доступа к своим данным: либо API по протоколу HTTP, либо парсинг исходного кода HTML. Статья посвящена подходу к высокопроизводительному извлечению данных из источников, не имеющих API для доступа к данным. Отличительными особенностями предлагаемого подхода являются: балансировка нагрузки, двухуровневая подсистема данных и отделение процесса загрузки файлов от процесса парсинга. Подход реализован в решении со следующими технологиями: Docker, Kubernetes, Scrapy, Python, MongoDB, Redis Cluster и СephFS. Результаты тестирования решения также описаны в этой статье.
Ключевые слова:
веб-скрапинг, веб-краулинг, распределенный сбор данных, распределенный анализ данных.
Образец цитирования:
D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov, “High performance distributed web-scraper”, Труды ИСП РАН, 33:3 (2021), 87–100
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp601 https://www.mathnet.ru/rus/tisp/v33/i3/p87
|
Статистика просмотров: |
Страница аннотации: | 168 | PDF полного текста: | 332 | Список литературы: | 40 |
|