A Study of Machine Learning classifiers for Botnet Traffic Detection with an Imbalanced Dataset

Authors

Andersen-Otte, Kamilla ; Bolgurov, Georgi Toshkov

Term

4. semester

Education

Cyber Security, Master

Publication year

2024

Submitted on

2024-05-30

Abstract

This thesis explores the use of machine learning to classify botnet traffic in networks of Internet of Things (IoT) devices. IoT devices are widespread and often have limited resources, making them attractive targets for botnets—networks of compromised devices controlled by attackers. As a result, detection methods must adapt to evolving threats while keeping false alarms low. Traditional network security struggles to keep up with the changing tactics of botnets. Machine learning can be more effective because it learns patterns from data. This study refines and evaluates models for IoT botnet detection by addressing three questions: (1) how to train on imbalanced datasets so rare attacks are still recognized, (2) how to optimize models for detecting botnet traffic in IoT networks, and (3) which traffic features (measurable characteristics) are most informative for identifying potential botnet activity. Five models—decision tree, random forest, Gaussian Naive Bayes, XGBoost, and a voting classifier—were trained on a sample of the BoT-IoT dataset. Feature sets were chosen using correlation analysis and forward and backward selection. To handle class imbalance between normal and malicious examples, different balancing techniques were applied. The trained models were also tested on a newly sampled dataset to validate performance. The results show that a voting classifier combining decision tree and XGBoost, trained on an oversampled dataset, achieved the best performance.

Dette speciale undersøger brugen af maskinlæring til at klassificere botnet-trafik i netværk med Internet of Things (IoT)-enheder. IoT-enheder er udbredte og har ofte begrænsede ressourcer, hvilket gør dem lette mål for botnet—netværk af kompromitterede enheder, der fjernstyres af angribere. Derfor er der behov for metoder, der kan opdage angreb, tilpasse sig nye trusler og samtidig holde antallet af falske alarmer lavt. Traditionelle netværkssikkerhedsmetoder har svært ved at følge med botnets skiftende adfærd. Maskinlæring er bedre egnet, fordi den kan lære mønstre i data. Specialet forbedrer og vurderer modeller til IoT-botnetdetektion ved at besvare tre spørgsmål: (1) hvordan man træner på skævt fordelte datasæt, så sjældne angreb stadig genkendes, (2) hvordan man optimerer modellerne til at opdage botnet-trafik i IoT-netværk, og (3) hvilke netværksegenskaber (features) der mest hjælper med at identificere potentielle botnet-aktiviteter. Fem modeller—decision tree, random forest, Gaussian Naive Bayes, XGBoost og en stemmeklassifikator (voting classifier)—blev trænet på et udsnit af BoT-IoT-datasættet. Feature-sæt blev valgt på baggrund af korrelationsanalyse samt fremad- og tilbagesøgende selektion. For at håndtere ubalance mellem normale og ondsindede eksempler blev der anvendt forskellige balanceringsteknikker. De trænede modeller blev desuden testet på et nyudtaget datasæt for at validere resultaterne. Resultaterne viste, at stemmeklassifikatoren, som kombinerer decision tree og XGBoost og blev trænet på et oversamplet datasæt, gav den bedste ydeevne.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

A Study of Machine Learning classifiers for Botnet Traffic Detection with an Imbalanced Dataset