Predictive IPv6 Crawling: Machine Learning and Active Scanning for High-Performance Network Discovery
Translated title
Predictive IPv6 Crawling
Authors
Basnet, Bandan ; Dahal, Shreejal ; Bhattarai, Omkar
Term
2. semester
Education
Publication year
2026
Abstract
This thesis presents a large-scale study of how IPv6 services are deployed in modern cloud infrastructure, using machine learning and active network scanning. IPv6 is the newest version of the Internet Protocol and provides far more addresses than the older IPv4. We started from 3.4 billion IPv6 addresses spread across 752 million /64 prefixes (a standard block of IPv6 addresses). We trained a LightGBM classification model on so-called density features, which describe how densely populated address ranges are, to predict which prefixes are likely to be active. For the addresses the model selected as candidates, we carried out detailed scans and identified responses and service types (fingerprinting). This approach achieved 100% precision and was 3,000 times more efficient than randomly probing addresses. In total, we examined 273,856 candidates across six scanning phases in April and May 2026 and observed an overall response rate of 94.2%. The results show that the IPv6 ecosystem is clearly different from IPv4: HTTPS (encrypted web traffic) dominates, accounting for 91% of observed services, and protocol adoption remains stable across all phases. In contrast, UDP (a connectionless transport protocol) has the lowest response rate, likely due to strict security filtering: only 0.48% of all responses used UDP. This points to a security-first design and widespread use of containerized architectures in modern cloud environments. Overall, the study demonstrates that large-scale IPv6 characterization is both feasible and highly informative, providing valuable insights for network security research and future Internet measurement studies.
Dette speciale undersøger i stor skala, hvordan IPv6-tjenester ser ud i moderne cloud-infrastruktur, ved hjælp af maskinlæring og aktiv netskanning. IPv6 er den nyeste version af internetprotokollen, som giver langt flere adresser end den ældre IPv4. Udgangspunktet var 3,4 milliarder IPv6-adresser fordelt på 752 millioner /64-præfikser (en standardblok af IPv6-adresser). Vi trænede en LightGBM-klassifikationsmodel på såkaldte tæthedsfunktioner, der beskriver, hvor tæt befolkede adresserum er, for at forudsige, hvilke præfikser der sandsynligvis er aktive. På de adresser, modellen udpegede som kandidater, udførte vi detaljeret skanning og så efter svar og tjenestetyper (fingerprinting). Denne metode opnåede 100 % præcision og var 3.000 gange mere effektiv end at skanne tilfældige adresser. I alt undersøgte vi 273.856 kandidater i seks skanningsfaser i april og maj 2026 og så en samlet svarrate på 94,2 %. Resultaterne viser, at IPv6-økosystemet adskiller sig tydeligt fra IPv4: HTTPS (krypteret webtrafik) dominerer med 91 % af de observerede tjenester, og fordelingen af protokoller er stabil på tværs af alle faser. Omvendt er UDP (en forbindelsesløs transportprotokol) den protokol, der giver færrest svar, sandsynligvis på grund af stramme sikkerhedsfiltre: vi modtog kun 0,48 % af alle svar via UDP. Dette peger på et sikkerhedsorienteret design og udbredt brug af containeriserede arkitekturer i moderne cloudmiljøer. Samlet viser arbejdet, at det både er praktisk muligt og meget informativt at karakterisere IPv6 i stor skala, og at sådanne målinger kan give vigtige indsigter til netværkssikkerhed og fremtidige målingsstudier.
[This abstract has been rewritten with the help of AI based on the project's original abstract]
