Malware Information Grabber
Author
Villefrance, Emil Christian Koch
Term
4. semester
Education
Publication year
2023
Abstract
This thesis addresses the lack of recent behavioral malware datasets and examines whether the widespread use of the no-longer actively maintained Cuckoo sandbox leads to higher evasion. Publicly available analysis reports from online instances of Cuckoo and Cape were automatically collected via web scraping and transformed into a user-friendly JSON dataset of behavioral features. The dataset and scraper source code were released to enable future updates and support further research. Using matched samples (same hash), reports from Cuckoo and Cape were compared to investigate differences in evasion behavior. The findings provide several indications that Cuckoo is evaded more often than Cape, though broader confirmation requires further study. The work contributes an updatable dataset and tools for dynamic malware research, alongside an initial analysis of evasion differences. Limitations include comparing only two sandboxes, the absence of ground-truth labels, and a time-limited collection period.
Dette speciale adresserer manglen på nyere adfærdsbaserede malware-datasæt og undersøger, om den udbredte brug af den ikke længere aktivt vedligeholdte Cuckoo-sandbox udgør et problem i form af øget omgåelse. Offentligt tilgængelige analyserapporter fra online instanser af Cuckoo og Cape blev automatisk indsamlet ved web-skrabning og omdannet til et brugervenligt JSON-datasæt med adfærdsfeatures. Datasættet og kildekoden til skrabere blev offentliggjort for at muliggøre fremtidige opdateringer og videre forskning. Med udgangspunkt i matchende prøver (samme hash) blev rapporter fra Cuckoo og Cape sammenlignet for at undersøge forskelle i omgåelsesadfærd. Resultaterne giver flere indikationer på, at Cuckoo oftere bliver omgået end Cape, men dette kræver yderligere undersøgelser for at kunne generaliseres. Arbejdet bidrager således med et opdaterbart datasæt og værktøjer til dynamisk malwareforskning samt en første analyse af omgåelsesforskelle. Begrænsningerne omfatter sammenligning af kun to sandkasser, manglende ground-truth-mærkater og en tidsbegrænset indsamling.
[This apstract has been generated with the help of AI directly from the project full text]
