Predicting Electrochemical Potential of Quinones Using Machine Learning Methods
Author
Cetin, Elif
Term
4. term
Education
Publication year
2025
Submitted on
2025-06-01
Pages
73
Abstract
As energy demand grows and we transition to renewable sources, the need for large‑scale energy storage on the grid is increasing. Quinones, a group of redox‑active organic molecules that can come from fungi and bacteria, are promising for redox flow batteries because their properties can be tuned. This thesis uses machine learning to predict the standard reduction potential of quinones and compares two model families: transformer‑based large language models (LLMs) and graph neural networks (GNNs). The reduction potential indicates how readily a molecule gains electrons and thus influences the voltage a battery can deliver. The best LLM and GNN configurations achieved average test‑set R² values of 0.734 and 0.721, respectively (R² reflects how well predictions match actual values; 1 is perfect). However, LLMs performed worse on validation sets than on test sets, indicating model‑fitting issues. Within the optimal configurations, the top individual LLM and GNN models reached test‑set R² of 0.777 and 0.774. Overall, LLMs delivered slightly higher accuracy but required substantially longer training times and greater computational resources.
I takt med at energibehovet stiger og samfundet skifter til vedvarende energikilder, vokser behovet for store energilagringsløsninger i elnettet. Quinoner, en gruppe redox‑aktive organiske molekyler, som kan stamme fra svampe og bakterier, er lovende til redox‑flow‑batterier, fordi deres egenskaber kan justeres. Denne afhandling undersøger, hvordan man kan forudsige quinoners standard reduktionspotentiale ved hjælp af maskinlæring og sammenligner to modeltyper: transformer‑baserede store sprogmodeller (LLM’er) og grafneurale netværk (GNN’er). Reduktionspotentialet er et mål for, hvor let et molekyle optager elektroner og påvirker dermed den spænding, et batteri kan levere. Resultaterne viser, at de bedst konfigurerede LLM‑ og GNN‑modeller opnåede gennemsnitlige R²‑værdier på testsættet på henholdsvis 0,734 og 0,721 (hvor R² angiver, hvor godt forudsigelserne passer til de faktiske værdier; 1 er perfekt). LLM’erne præsterede dog dårligere på valideringssæt end på testsæt, hvilket tyder på udfordringer med modellens tilpasning. Blandt de bedste enkeltmodeller nåede en LLM et R² på 0,777, mens en GNN nåede 0,774 på testsættet. Samlet set gav LLM’erne en anelse højere nøjagtighed, men krævede betydeligt længere træningstid og større beregningsressourcer.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
