All You Need Is Evolution: Rethinking Genetic Algorithms for Process Discovery
Authors
Kowalski, Frederik Hecter ; Nygård, Richard ; Axelsen, Jeppe Berg
Term
4. semester
Education
Publication year
2025
Submitted on
2025-06-13
Pages
41
Abstract
Process mining aims to build models of how work actually happens by analyzing event logs from IT systems. The goal is to balance key quality criteria: fitness (how well the model reproduces recorded behavior), precision (avoiding too much unseen behavior), generality (covering reasonable variations), and simplicity (being easy to read). Genetic algorithms—search methods inspired by natural selection—can explore a wide space of candidate models, but traditional approaches are often slow to converge and usually underperform state‑of‑the‑art methods such as Inductive Miner and Split Miner. In this thesis, we revisit genetic process discovery and introduce a new enhancement to the evolutionary framework that improves both efficiency and results. Our approach provides stronger initial populations (good starting models), highly efficient fitness estimation, and adaptive log filtering that reduces noise and focuses the search on higher‑quality models. Together, these changes accelerate convergence and better guide the search. Through extensive evaluation on benchmark event logs, we show that our enhanced genetic algorithm delivers competitive performance, producing process models that rival leading algorithms in terms of fitness, precision, and structural quality. These findings suggest that, with the right improvements, genetic methods can be a valuable part of the process discovery toolbox.
Procesmining handler om at udlede modeller af, hvordan arbejdsprocesser faktisk foregår, ved at analysere hændelseslogs fra it‑systemer. Målet er at finde modeller, der både passer godt til data (fitness), undgår at tillade for meget ikke‑observeret adfærd (præcision), kan dække variationer (generalitet) og er lette at forstå (enkelhed). Genetiske algoritmer – søgemetoder inspireret af naturlig selektion – kan afsøge mange mulige modeller, men traditionelle tilgange er ofte langsomme til at finde gode løsninger og klarer sig typisk dårligere end førende metoder som Inductive Miner og Split Miner. I dette arbejde genbesøger vi genetisk procesopdagelse og præsenterer en ny forbedring af den evolutionære ramme, som øger både effektivitet og resultater. Vi introducerer bl.a. bedre startpopulationer (gode startmodeller), meget effektiv vurdering af fitness og adaptiv logfiltrering, der reducerer støj i data og styrer søgningen mod modeller af højere kvalitet. Samlet set giver disse tiltag hurtigere konvergens og mere målrettet søgning. Gennem omfattende evaluering på benchmark‑hændelseslogs viser vi, at vores forbedrede genetiske algoritme opnår konkurrencedygtig ydeevne og producerer procesmodeller, der kan måle sig med de førende algoritmer i fitness, præcision og strukturel kvalitet. Resultaterne indikerer, at genetiske tilgange med de rette forbedringer kan være et værdifuldt værktøj i procesopdagelse.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
