Automatic Energy-Efficient Job Scheduling in HPC: A Novel Slurm Plugin Approach
Author
Springborg, Anders Aaen
Term
4. term
Education
Publication year
2023
Submitted on
2023-06-09
Pages
12
Abstract
This thesis presents a practical approach to making job scheduling in High Performance Computing (HPC) more energy‑efficient and production‑ready. Motivated by rising HPC energy use and a gap between research prototypes and operational systems, it introduces a new Slurm plugin, job_submit_eco, that decouples scheduling heuristics into a Python application, Chronus, which selects energy‑efficient per‑job configurations. Following Service‑Oriented Architecture and Clean Architecture principles, the design allows new energy models to be added without redeploying Slurm. Chronus determines settings such as CPU frequencies, number of cores, and threads per core to improve performance per watt, and stores measurements in a flexible database/blob storage. Integrated into the widely used Slurm scheduler, the plugin shifts emphasis from pure time‑to‑completion to lower energy use, incurring only a minor runtime increase. In a single‑node demonstration using the HPCG benchmark, the implementation shows a potential 11% energy saving, illustrating that the approach can work in a realistic production context. The work provides a foundation for bringing energy‑efficient methods into operation and points toward future extensions, including automatically scheduling jobs when energy is cheap and renewable.
Denne afhandling præsenterer en praktisk tilgang til at gøre jobplanlægning i High Performance Computing (HPC) mere energieffektiv og lettere at anvende i produktion. Udgangspunktet er det voksende energiforbrug i HPC og et teknologi‑gab mellem forskningsmodeller og deres anvendelse i drift. Løsningen er et nyt Slurm‑plugin, job_submit_eco, der kobler planlægningsheuristikker fri fra Slurms kerne ved at lade en Python‑applikation, Chronus, vælge energieffektive konfigurationer for den enkelte kørsel. Arkitekturen bygger på principperne fra Service‑Oriented Architecture og Clean Architecture og gør det muligt at udskifte eller udvide energimodeller uden at genudrulle Slurm. Chronus bestemmer blandt andet CPU‑frekvenser, antal kerner og tråde pr. kerne for at maksimere ydelse pr. watt og gemmer målinger i en fleksibel database/lagring. Løsningen integreres i den udbredte Slurm‑planlægger og prioriterer energiforbrug frem for ren gennemløbstid med kun en mindre kørselsstraf. I en demonstration på en enkelt node med HPCG‑benchmarket opnås en potentiel energibesparelse på omkring 11%, hvilket viser, at tilgangen kan fungere i et realistisk produktionsmiljø. Arbejdet giver dermed et konkret grundlag for at bringe energieffektive metoder i drift og åbner for videre udvikling, herunder automatisk planlægning, når energi er billig eller grøn.
[This apstract has been generated with the help of AI directly from the project full text]
Keywords
