Evaluating Engineered Feature Transformations Through Local Error Compression

Author

Hvidager, Samuel

Term

4. term

Education

Economics, Master

Publication year

2026

Submitted on

2026-06-01

Abstract

This thesis presents a way to quickly select useful engineered features (new input variables computed from raw data) for classification problems on tabular data. When libraries of such transformations are very large, it is hard to decide which ones are worth keeping while still keeping the results interpretable. The main method, Baseline‑free Adaptive Compression Evaluation (BACE), ranks candidate features based on a simple idea: a good feature should make nearby cases more consistent in their labels. In other words, when we look at local neighborhoods defined by that feature, errors should shrink compared with a naive guess that only knows the overall class balance. This “local error compression” lets BACE judge a feature on its own, without training a specific predictive model. The work first explores a baseline‑anchored variant, BRACE, that tries to reward local error reduction while preserving the original structure of the data. Diagnostics showed that this dual goal is hard to satisfy in practice, because effective transformations often need freedom that weakens the baseline‑anchored interpretation. The final selector therefore focuses on the simpler, baseline‑free BACE. Conditional and Pareto extensions are added to account for redundant features and the extra value a feature provides after earlier selections. BACE, its extensions, ReliefF, and LASSO are evaluated on four classification tasks: UCI credit‑card default risk, a weather‑based daily high prediction, Madelon, and ACS poverty classification. Results show that BACE is especially helpful when only a small ‘feature budget’ is available (only a few features can be included) and the aim is a compact, interpretable set of transformations with strong local structure. In that regime it often outperforms ReliefF, while ReliefF can become stronger as more features are allowed. Overall, BACE is best viewed as a first‑stage, model‑agnostic (independent of any specific algorithm) screening tool for narrowing large feature libraries before final out‑of‑sample evaluation.

Dette speciale præsenterer en metode til hurtigt at udvælge nyttige konstruerede features (inputvariable) til klassifikationsopgaver på tabeldata. Konstruerede features er nye variable, der beregnes ud fra rå data (fx forholdstal eller glidende gennemsnit). Når biblioteker af sådanne transformationer er meget store, er det svært at vælge de bedste og samtidig bevare tolkbarheden. Hovedmetoden, Baseline‑free Adaptive Compression Evaluation (BACE), rangerer kandidat‑features ud fra en enkel idé: En god feature bør få nærliggende observationer til at ligne hinanden mere i deres etiketter. Med andre ord bør fejlene i lokale nabolag defineret af den pågældende feature blive mindre end ved et naivt gæt, der kun bygger på den overordnede klassefordeling. Denne “lokale fejlkompression” gør det muligt for BACE at bedømme en feature i sig selv uden at træne en bestemt forudsigelsesmodel. Arbejdet undersøger først en baseline‑forankret variant, BRACE, som forsøger både at belønne lokal fejlreduktion og bevare datasættets oprindelige struktur. Diagnoser viste, at dette dobbelte mål er svært at opfylde i praksis, fordi effektive transformationer ofte kræver frihed, som svækker den baseline‑forankrede fortolkning. Derfor fokuserer den endelige udvælger på den enklere, baseline‑frie BACE. Betingede og Pareto‑udvidelser tilføjes for at håndtere redundans og den marginale merværdi, en feature giver efter tidligere valg. BACE, dets udvidelser, ReliefF og LASSO bliver evalueret på fire klassifikationsopgaver: UCI‑datasættet for kreditkort‑misligholdelse, en vejrbaseret forudsigelse af dagens højeste temperatur, Madelon og ACS fattigdomsklassifikation. Resultaterne viser, at BACE er særlig nyttig, når der kun er et lille ‘feature‑budget’ (få features kan medtages), og målet er et kompakt, fortolkeligt sæt transformationer med stærk lokal struktur. I dette regime overgår den ofte ReliefF, mens ReliefF kan blive stærkere, når flere features tillades. Overordnet set bør BACE ses som et første‑trin, model‑agnostisk (uafhængigt af valg af algoritme) screeningsværktøj til at indsnævre store feature‑biblioteker før endelig evaluering på ud‑af‑prøve data.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Evaluating Engineered Feature Transformations Through Local Error Compression