|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
МОДЕЛИ В ФИЗИКЕ И ТЕХНОЛОГИИ
Reducing miss rate in a non-inclusive cache with inclusive directory of a chip multiprocessor
[Снижение частоты промахов в неинклюзивный кэш с инклюзивным справочником многоядерного процессора]
Yu. A. Nedbailoab, A. V. Surchenkoa, I. N. Bychkovab a MCST JSC,
108 Profsoyuznaya st., Moscow, 117437, Russia
b INEUM im. I. S. Bruka,
24 Vavilova st., Moscow, 119334, Russia
Аннотация:
Хотя эпоха экспоненциального роста производительности компьютерных микросхем закончилась, даже настольные процессоры общего назначения сегодня имеют 16 и больше ядер. Поскольку пропускная способность памяти DRAM растет не с такой скоростью, как вычислительная мощность ядер, разработчики процессоров должны искать пути уменьшения частоты обменов с памятью на одну инструкцию. Непосредственным путем к этому является снижение частоты промахов в кэш последнего уровня. Предполагая уже реализованной схему «неинклюзивный кэш с инклюзивным справочником» (NCID), три способа дальнейшего снижения частоты промахов были исследованы.
Первый способ — это достижение более равномерного использования банков и наборов кэша применением хэш-функций для интерливинга и индексирования. В экспериментах в тестах SPEC CPU2017 refrate, даже простейшие хэш-функции на основе XOR показали увеличение производительности на 3,2%, 9,1% и 8,2% в конфигурациях процессора с 16, 32 и 64 ядрами и банками общего кэша, сравнимое с результатами для более сложных функций на основе матриц, деления и CRC.
Вторая оптимизация нацелена на уменьшение дублирования на разных уровнях кэшей путем автоматического переключения на эксклюзивную схему, когда она выглядит оптимальной. Известная схема этого типа, FLEXclusion, была модифицирована для использования в NCID-кэшах и показала улучшение производительности в среднем на 3,8%, 5,4% и 7,9% для 16-, 32- и 64-ядерных конфигураций.
Третьей оптимизацией является увеличение фактической емкости кэша использованием компрессии. Частота сжатия недорогим и быстрым алгоритмом B DI*-HL (Base-Delta-Immediate Modified, Half-Line), разработанным для NCID, была измерена, и соответствующее увеличение емкости кэша дало около 1% среднего повышения производительности.
Все три оптимизации могут сочетаться и продемонстрировали прирост производительности в 7,7%, 16% и 19% для конфигураций с 16, 32 и 64 ядрами и банками соответственно.
Ключевые слова:
многоядерный процессор, подсистема памяти, распределенный общий кэш, NCID, хэш-функции на основе XOR, компрессия данных.
Поступила в редакцию: 14.04.2023 Принята в печать: 03.05.2023
Образец цитирования:
Yu. A. Nedbailo, A. V. Surchenko, I. N. Bychkov, “Reducing miss rate in a non-inclusive cache with inclusive directory of a chip multiprocessor”, Компьютерные исследования и моделирование, 15:3 (2023), 639–656
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/crm1080 https://www.mathnet.ru/rus/crm/v15/i3/p639
|
|