En privatlivsbevarende ramme for integreret analyse af netværkstrafik og brugergenereret kommunikation

Oversat titel

Et Proof of Concept for etisk, batch-orienteret dataanalyse under databeskyttelseskrav

Forfatter

Araghi, Mohammad Ali Rajab Ali

Semester

4. semester

Uddannelse

Master i Informationsteknologi, Softwarekonstruktion (Efter- og videreuddannelse)

Udgivelsesår

2026

Afleveret

2026-01-22

Antal sider

Resumé

Specialet undersøger, hvordan netværksbaseret anomalidetektion (at finde usædvanlige mønstre i netværkstrafik) og NLP-baseret analyse af brugergenereret tekst (natural language processing) kan samles i én ramme under strenge krav til dataminimering, pseudonymisering og metodisk transparens. Arbejdet er et Proof of Concept (PoC) med fokus på metodisk gennemførlighed og arkitektonisk sammenhæng frem for statistisk generalisering eller implementering i fuld skala. Den analytiske ramme er bygget som en modulær, pipeline-orienteret arkitektur på en cloud-native platform. Arkitekturen muliggør kontrolleret dataindsamling, systematisk pseudonymisering og batch-orienterede analyseforløb (planlagte kørsler frem for realtid). Et planlagt pilotprojekt med NGO’er kunne ikke igangsættes inden for tidsrammen; alligevel er hele arkitekturen implementeret, og data er genereret direkte via platformen. Denne mangel er derfor en organisatorisk og tidsmæssig begrænsning, ikke en teknisk. Det empiriske grundlag omfatter heterogene kilder: kommunikationsdata fra Telegram, WhatsApp og WordPress, surveydata samt netværkstrafik fra kontrollerede testforløb mod en Azure-hostet WordPress-platform. For at overholde databeskyttelsesprincipper er alle datasæt pseudonymiseret, og analyserne bygger udelukkende på metadata (data om data) og aggregerede repræsentationer. Der bruges hverken rå personoplysninger, identificerbare tekstuddrag eller netværkspayloads. Metodisk kombineres to komplementære tilgange. 1) Netværksbaseret anomalidetektion på netværksmetadata med et begrænset og fortolkeligt sæt features som trafikvolumen, forbindelsesfrekvens, protokolfordeling og tidsmæssige mønstre. Anomalier forstås kun som statistiske eller strukturelle afvigelser fra et normalbillede og tolkes ikke som sikkerhedshændelser. Supervised maskinlæringsmodeller anvendes til at klassificere kendte mønstre med vægt på gennemsigtighed og evaluérbarhed. 2) NLP-baseret tekstanalyse med transparente, unsupervised metoder (mønstre uden foruddefinerede labels). Tekst aggregeres på brugerniveau og repræsenteres med TF‑IDF (en vægtning, der fremhæver ord, der er karakteristiske for en brugers tekster), hvilket muliggør kvantitative brugerprofiler uden foruddefinerede kategorier. Derudover vurderes sproglig konsistens på tværs af platforme ved at måle fordelingen mellem farsi- og latinsk skrift. Integration mellem netværks- og tekstanalyser sker analytisk via fælles pseudonymiserede identifikatorer og tidsmæssig afgrænsning. Hvor det er muligt, analyseres teknisk aktivitet og kommunikationsadfærd parallelt for at give kontekst uden at antage kausale sammenhænge. Den batch-orienterede tilgang er et bevidst arkitektonisk og governance-valg: dataejerskab forbliver hos den dataafgivende organisation, og kuraterede datasæt kan deles asynkront med fremtidige open source-baserede analyseaktører. Resultaterne viser, at det er metodisk muligt at integrere heterogene datakilder i en sammenhængende pipeline med stærke privatlivsgarantier. Specialet demonstrerer, at meningsfulde indsigter kan udledes alene af metadata og aggregerede repræsentationer, og at sproglig form og tematisk indhold er adskilte, men komplementære analysetilgange. Samlet set præsenteres en transparent og etisk forankret metodisk ramme for integreret analyse af kommunikations- og netværksdata. På trods af PoC-rammen og et kontrolleret datagrundlag lægger arbejdet et solidt fundament for videre forskning og praktisk afprøvning, hvor databeskyttelse, governance og analytisk kvalitet er centrale.

This thesis explores how network-based anomaly detection (finding unusual patterns in network traffic) and NLP-based analysis of user-generated text (natural language processing) can be combined in a single framework under strict data minimization, pseudonymization, and methodological transparency. The work is a Proof of Concept (PoC) focused on methodological feasibility and architectural coherence rather than statistical generalization or full-scale deployment. The analytical framework is a modular, pipeline-oriented architecture on a cloud-native platform. It supports controlled data collection, systematic pseudonymization, and batch-oriented analysis runs (scheduled processing rather than real-time). A planned NGO pilot could not be launched within the project timeframe; nonetheless, the full architecture was implemented and data were generated directly via the platform. This absence is therefore an organizational and temporal limitation, not a technical one. The empirical basis comprises heterogeneous sources: communications data from Telegram, WhatsApp, and WordPress, survey data, and network traffic from controlled tests against an Azure-hosted WordPress platform. To uphold data protection principles, all datasets are pseudonymized, and analyses rely solely on metadata (data about data) and aggregated representations. No raw personal data, identifying text content, or network payloads are used. Methodologically, two complementary approaches are combined. 1) Network-based anomaly detection on network metadata using a limited, interpretable set of features such as traffic volume, connection frequency, protocol distribution, and temporal patterns. Anomalies are defined only as statistical or structural deviations from an established baseline and are not interpreted as security incidents. Supervised machine learning models classify known patterns with an emphasis on transparency and evaluability. 2) NLP-based text analysis using transparent, unsupervised methods (discovering structure without predefined labels). Text is aggregated at the user level and represented with TF‑IDF (a weighting that highlights words characteristic of a user’s texts), enabling quantitative user profiles without predefined categories. In addition, linguistic consistency across platforms is assessed by measuring the distribution between Farsi and Latin scripts. Integration between network and text analyses occurs at the analytical level via shared pseudonymized identifiers and time windows. Where possible, technical activity and communication behavior are analyzed in parallel to provide context without making causal claims. The batch-oriented approach is a deliberate architectural and governance choice: data ownership remains with the providing organization, and curated datasets can be shared asynchronously with future open source–based analysis actors. The results show it is methodologically feasible to integrate heterogeneous data sources into a coherent pipeline under strong privacy guarantees. The thesis demonstrates that meaningful insights can be derived from metadata and aggregated representations alone, and that linguistic form and thematic content are distinct yet complementary analytical perspectives. Overall, it contributes a transparent, ethically grounded methodological framework for integrated analysis of communications and network data. Despite the PoC scope and controlled data basis, the work lays a solid foundation for further research and practical trials in contexts where data protection, governance, and analytical quality are paramount.

[Dette resumé er omskrevet med hjælp fra AI baseret på projektets originale resumé]

Dokumenter

Download PDF
Vis denne rapport i AAU Studenterprojekter

Et masterspeciale fra Aalborg Universitet

En privatlivsbevarende ramme for integreret analyse af netværkstrafik og brugergenereret kommunikation