AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Clustering Analysis of Malware Behavior

Author

Term

4. term

Publication year

2015

Submitted on

Pages

139

Abstract

I dag bliver malware ofte klassificeret ud fra labels fra antivirusleverandører. Denne undersøgelse undersøger, hvor pålidelige de labels er, ved at sammenholde dem med mønstre, der er lært direkte fra malwareadfærd ved hjælp af usuperviseret læring (dvs. at dataene selv danner grupper uden foruddefinerede labels). Omtrent 270.000 malwareprøver blev kørt i en tilpasset Cuckoo Sandbox, et isoleret testmiljø, for at registrere deres handlinger: hvilke system-API-kald de foretog, om de lykkedes eller fejlede, og hvilke returkoder de gav. Disse data dannede adfærdsprofiler for hver prøve. Undersøgelsen kortlagde, hvordan antivirusleverandører navngiver fund, og vurderede deres resultater på tre områder: fuldstændighed, konsistens og korrekthed. Som en midlertidig reference blev der skabt et fælles label via flertalsafstemning på tværs af leverandører, hvor en tokeniseret Levenshtein-ratio (en tekstlig lighedsmåling) blev brugt til at samle næsten ens labelnavne. Da der er få standardværktøjer i usuperviseret læring til både featurevalg og valg af antal klynger, blev Hovedkomponentanalyse (PCA) anvendt til at reducere datadimensioner, og Gap-statistik blev brugt til at anslå et passende antal klynger. Adfærdsdataene blev klynget med en Self-Organizing Map (SOM), der bevarer den overordnede struktur i de højdimensionelle data ved at placere lignende prøver tæt på hinanden. Ved evaluering viste SOM-klyngerne ikke nogen tydelig sammenhæng med antivirusleverandørernes typelabels, hvilket peger på svagheder ved at bruge disse labels som sandhedskilde. For at løse dette misforhold foreslår studiet en klyngebaseret klassifikation, der kan klassificere ny malware ud fra de SOM-baserede adfærdsklynger med henblik på mere præcis, adfærdsdrevet mærkning.

Today, malware is often classified using labels assigned by antivirus (AV) products. This study examines how reliable those labels are by comparing them with patterns learned directly from malware behavior using unsupervised learning (letting the data group itself without preset labels). About 270,000 malware samples were run in a customized Cuckoo Sandbox, an isolated test environment, to record their actions: which system API calls they made, whether those calls succeeded or failed, and the return codes. These recordings formed a behavioral profile for each sample. The study analyzed how AV vendors name detections and assessed their results for completeness, consistency, and correctness. As a temporary reference, a combined label was created via majority voting across vendors, using a tokenized Levenshtein ratio (a text similarity measure) to merge near-identical label names. Given the limited off-the-shelf options in unsupervised learning for feature selection and choosing the number of groups, the work used Principal Component Analysis (PCA) to reduce data dimensions and the Gap Statistic to estimate a suitable number of clusters. Behavioral data were then clustered with a Self-Organizing Map (SOM), which preserves the structure of high-dimensional data by placing similar samples near each other. Evaluation showed that SOM clusters did not align with AV type labels, highlighting weaknesses in using those labels as ground truth. To address this mismatch, the study proposes a cluster-based classification that assigns new malware to the SOM-derived behavior clusters, aiming for more accurate, behavior-driven labeling.

[This abstract was generated with the help of AI]