Unsupervised Feature Subset Selection
Authors
Søndberg-Madsen, Nicolaj ; Thomsen, Casper
Term
4. term
Education
Publication year
2003
Abstract
Specialet ligger inden for beslutningsstøttesystemer og undersøger en sparsomt belyst opgave: at vælge, hvilke inputvariabler (features) der skal beholdes, når data grupperes uden labels (usuperviseret klyngedannelse). Vi beskriver, hvad der kendetegner nyttige features til klyngeanalyse, og foreslår nye relevansmål, der rangerer features efter, hvor godt de hjælper med at adskille grupper. Sammen med en tærskelværdi kan disse scorer bruges i en filtertilgang, der frasorterer uinformative features. Vi præsenterer to metoder til at fastsætte tærsklen og tester scorerne på tre syntetiske datasæt og fire datasæt fra den virkelige verden. Dernæst anvender vi rangeringerne i en hybridmetode til usuperviseret udvælgelse af features, som kræver færre modeltræninger end almindelige wrapper-metoder (hvor man gentagne gange træner en model for at vurdere featuresæt). I vores forsøg klarer både filter- og hybridtilgangen sig tilfredsstillende.
This thesis in Decision Support Systems examines an underexplored task: selecting which input variables (features) to keep when grouping data without labels (unsupervised clustering). We describe what makes a feature useful for clustering and introduce new relevance scoring methods that rank features by how well they help separate groups. Combined with a threshold (a cutoff value), these scores support a filter approach that removes uninformative features. We propose two ways to set the threshold and evaluate the scores on three synthetic and four real-world datasets. We then use the rankings in a hybrid method for unsupervised feature subset selection, which achieves the goal with fewer model trainings than standard wrapper methods (which repeatedly train a model to assess feature sets). In our experiments, both the filter and hybrid approaches perform satisfactorily.
[This abstract was generated with the help of AI]
Documents
