AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Hierarchical Training using SHAP for Interpretable Organometal Halide Perovskite Bandgap Prediction

Authors

; ;

Term

4. term

Publication year

2021

Submitted on

Pages

5

Abstract

Interpreting machine learning models helps people trust predictions and spot hidden patterns, rather than treating models as black boxes. This work presents a hierarchical training method to interpret convolutional neural networks (CNNs) trained on tabular (row‑and‑column) data. We apply it to predict the bandgap of organometal halide perovskites, a class of crystalline materials where bandgap is a key property. The model assigns importance values to input features. Our feature space combines 39 descriptors that capture properties of the constituent elements, precursor compounds, and perovskite crystal structures. To speed learning, we use a Weight Parameter Saving Method that reuses weights from a previously trained network to initialize the next one, yielding faster convergence and improved predictive performance. We estimate feature importance with SHAP (Shapley Additive Explanations) and, with hierarchical training, identify a minimal set of features that achieves bandgap prediction within a squared error of 0.1. This reduces the feature space while preserving the model’s predictive performance and provides a clearer explanation of what drives the predictions.

At kunne fortolke maskinlæringsmodeller hjælper brugere med at have tillid til forudsigelser og opdage skjulte mønstre i stedet for at behandle modeller som en sort boks. Dette arbejde præsenterer en hierarkisk træningsmetode til at fortolke konvolutionelle neurale netværk (CNN’er), der er trænet på tabeldata (række‑kolonne‑data). Vi anvender metoden til at forudsige båndgabet i organometal‑halid perovskitter, en klasse af krystallinske materialer hvor båndgabet er en central egenskab. Modellen tildeler vigtighedsværdier til input‑features. Vores feature‑rum omfatter 39 beskrivelser, der dækker egenskaber ved grundstoffer, prekursorer og perovskit‑krystalstrukturer og kan kombineres. For at fremskynde læringen bruger vi en Weight Parameter Saving Method, som genbruger vægte fra et tidligere netværk til at initialisere det næste, hvilket giver hurtigere konvergens og bedre forudsigelser. Vi estimerer feature‑vigtighed med SHAP (Shapley Additive Explanations) og finder via hierarkisk træning et minimalt featuresæt, der opnår båndgabsforudsigelser inden for en kvadreret fejl på 0,1. Dette reducerer feature‑rummet, bevarer modellens ydeevne og gør det tydeligere, hvad der driver forudsigelserne.

[This apstract has been rewritten with the help of AI based on the project's original abstract]