Unsupervised Feature Subset Selection

Authors

Søndberg-Madsen, Nicolaj ; Thomsen, Casper

Term

4. term

Education

Computer Science, Master

Publication year

2003

Abstract

This thesis in Decision Support Systems examines an underexplored task: selecting which input variables (features) to keep when grouping data without labels (unsupervised clustering). We describe what makes a feature useful for clustering and introduce new relevance scoring methods that rank features by how well they help separate groups. Combined with a threshold (a cutoff value), these scores support a filter approach that removes uninformative features. We propose two ways to set the threshold and evaluate the scores on three synthetic and four real-world datasets. We then use the rankings in a hybrid method for unsupervised feature subset selection, which achieves the goal with fewer model trainings than standard wrapper methods (which repeatedly train a model to assess feature sets). In our experiments, both the filter and hybrid approaches perform satisfactorily.

Specialet ligger inden for beslutningsstøttesystemer og undersøger en sparsomt belyst opgave: at vælge, hvilke inputvariabler (features) der skal beholdes, når data grupperes uden labels (usuperviseret klyngedannelse). Vi beskriver, hvad der kendetegner nyttige features til klyngeanalyse, og foreslår nye relevansmål, der rangerer features efter, hvor godt de hjælper med at adskille grupper. Sammen med en tærskelværdi kan disse scorer bruges i en filtertilgang, der frasorterer uinformative features. Vi præsenterer to metoder til at fastsætte tærsklen og tester scorerne på tre syntetiske datasæt og fire datasæt fra den virkelige verden. Dernæst anvender vi rangeringerne i en hybridmetode til usuperviseret udvælgelse af features, som kræver færre modeltræninger end almindelige wrapper-metoder (hvor man gentagne gange træner en model for at vurdere featuresæt). I vores forsøg klarer både filter- og hybridtilgangen sig tilfredsstillende.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Unsupervised Feature Subset Selection