|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем
Мониторинг приложений на кластере ZHORES в Сколтехе
И. Е. Захаров, О. А. Панарин, С. Г. Рыкованов, Р. Р. Загидуллин, А. К. Малютин, Ю. Н. Шкандыбин, А. Е. Ермекова Сколковский институт науки и технологий
Аннотация:
Стандартные инструменты мониторинга для кластерных вычислительных систем позволяют оценить работу системы в целом, но не позволяют анализировать работу приложений по отдельности. Система мониторинга для измерения ресурсов, затребованных каждым приложением в отдельности разработана в Сколтехе для высокопроизводительного кластера ZHORES. Система мониторинга собирает как обычные метрики загрузки процессоров и графических ускорителей, так и счетчики событий ЦПУ/ГПУ, которые позволяют более детально анализировать тип ресурса, затребованный приложением. Сервисные программы, развернутые на каждом узле кластера, посылают результаты измерений в единую базу данных временных рядов с шагом в одну секунду. Эти данные затем анализируются статистическими методами в режиме оффлайн для выделения характеристик, связанных с использованием вычислительных ресурсов каждым приложением. Мониторинг позволяет выявлять неэффективное программное обеспечение, производить тонкую настройку работы кластера, а также улучшать работу высокопроизводительной системы в целом.
Ключевые слова и фразы:
кластер, высокопроизводительные вычисления, мониторинг приложений, счетчики событий ЦПУ/ГПУ, база данных временных рядов.
Поступила в редакцию: 26.01.2021 29.03.2021 Подписана в печать : 05.06.2021
Образец цитирования:
И. Е. Захаров, О. А. Панарин, С. Г. Рыкованов, Р. Р. Загидуллин, А. К. Малютин, Ю. Н. Шкандыбин, А. Е. Ермекова, “Мониторинг приложений на кластере ZHORES в Сколтехе”, Программные системы: теория и приложения, 12:2 (2021), 73–103
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/ps383 https://www.mathnet.ru/rus/ps/v12/i2/p73
|
Статистика просмотров: |
Страница аннотации: | 130 | PDF полного текста: | 73 | Список литературы: | 31 |
|