Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2021, том 33, выпуск 3, страницы 87–100
DOI: https://doi.org/10.15514/ISPRAS-2021-33(3)-7
(Mi tisp601)
 

High performance distributed web-scraper
[Высокопроизводительный распределенный веб-скрапер]

D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov

Peter the Great St.Petersburg Polytechnic University
Список литературы:
Аннотация: За последнее десятилетие Интернет стал гигантским и богатейшим источником данных. Данные используются для извлечения знаний путем выполнения машинного анализа. Чтобы выполнить интеллектуальный анализ данных веб-информации, данные должны быть извлечены из источника и помещены в аналитическое хранилище. Это ETL-процесс. Разные веб-источники имеют разные способы доступа к своим данным: либо API по протоколу HTTP, либо парсинг исходного кода HTML. Статья посвящена подходу к высокопроизводительному извлечению данных из источников, не имеющих API для доступа к данным. Отличительными особенностями предлагаемого подхода являются: балансировка нагрузки, двухуровневая подсистема данных и отделение процесса загрузки файлов от процесса парсинга. Подход реализован в решении со следующими технологиями: Docker, Kubernetes, Scrapy, Python, MongoDB, Redis Cluster и СephFS. Результаты тестирования решения также описаны в этой статье.
Ключевые слова: веб-скрапинг, веб-краулинг, распределенный сбор данных, распределенный анализ данных.
Тип публикации: Статья
Язык публикации: английский
Образец цитирования: D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov, “High performance distributed web-scraper”, Труды ИСП РАН, 33:3 (2021), 87–100
Цитирование в формате AMSBIB
\RBibitem{EyzRamNik21}
\by D.~S.~Eyzenakh, A.~S.~Rameykov, I.~V.~Nikiforov
\paper High performance distributed web-scraper
\jour Труды ИСП РАН
\yr 2021
\vol 33
\issue 3
\pages 87--100
\mathnet{http://mi.mathnet.ru/tisp601}
\crossref{https://doi.org/10.15514/ISPRAS-2021-33(3)-7}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp601
  • https://www.mathnet.ru/rus/tisp/v33/i3/p87
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
    Статистика просмотров:
    Страница аннотации:168
    PDF полного текста:332
    Список литературы:40
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024