En privatlivsbevarende ramme for integreret analyse af netværkstrafik og brugergenereret kommunikation

Oversat titel

Et Proof of Concept for etisk, batch-orienteret dataanalyse under databeskyttelseskrav

Forfatter

Araghi, Mohammad Ali Rajab Ali

Semester

4. semester

Uddannelse

Master i Informationsteknologi, Softwarekonstruktion (Efter- og videreuddannelse)

Udgivelsesår

2026

Afleveret

2026-01-22

Antal sider

Abstract

Dette speciale undersøger, hvordan netværksbaseret anomali detektion og NLP-baseret analyse af brugergenereret kommunikation kan integreres i en fælles analytisk ramme under strenge krav til dataminimering, pseudonymisering og metodisk transparens. Undersøgelsen er gennemført som et Proof of Concept (PoC) og har fokus på metodisk gennemførlighed og arkitektonisk sammenhæng frem for statistisk generalisering eller implementering i fuld skala. Den analytiske ramme er baseret på en modulopbygget, pipeline-orienteret arkitektur implementeret på en cloud-native platform. Arkitekturen understøtter kontrolleret dataindsamling, systematisk pseudonymisering og batch-orienterede analyseflows. Selvom det ikke var muligt at igangsætte et egentligt pilotprojekt i samarbejde med NGO’er inden for projektets tidsramme, er den fulde arkitektur implementeret, og data er genereret direkte via platformen. Fraværet af et NGO-pilotstudie udgør således en organisatorisk og tidsmæssig begrænsning snarere end en teknisk. Det empiriske grundlag består af heterogene datakilder, herunder kommunikationsdata fra platforme som Telegram, WhatsApp og WordPress, surveydata samt netværkstrafik indsamlet gennem kontrollerede testforløb mod en Azure-hostet WordPress-platform. For at sikre overholdelse af databeskyttelsesprincipper er alle datasæt pseudonymiseret, og analyserne baserer sig udelukkende på metadata og aggregerede repræsentationer. Der er hverken anvendt rå personoplysninger, tekstindhold med identificerende karakter eller netværkspayloads. Metodisk kombinerer specialet to komplementære analysetilgange. For det første anvendes netværksbaseret anomalidetektion på metadata fra netværkstrafik ved hjælp af et begrænset og fortolkeligt sæt tekniske features, herunder trafikvolumen, forbindelsesfrekvens, protokolfordeling og tidsmæssige mønstre. Anomalier defineres udelukkende som statistiske eller strukturelle afvigelser fra et etableret normalbillede og fortolkes ikke som indikatorer for sikkerhedshændelser eller ondsindet adfærd. Supervised maskinlæringsmodeller anvendes til klassifikation af kendte mønstre med fokus på gennemsigtighed og evaluérbarhed. For det andet anvendes NLP-baseret analyse af brugergenereret tekst ved hjælp af transparente, unsupervised metoder. Tekstdata aggregeres på brugerniveau og repræsenteres ved hjælp af Term Frequency–Inverse Document Frequency (TF-IDF), hvilket muliggør konstruktion af kvantitative brugerprofiler uden anvendelse af foruddefinerede kategorier eller labels. Derudover analyseres sproglig konsistens på tværs af platforme ved at måle fordelingen mellem farsi- og latinsk skrift. Integration mellem netværksbaserede og tekstbaserede analyser sker på et analytisk niveau gennem fælles pseudonymiserede identifikatorer og tidsmæssig afgrænsning. Hvor det er muligt, analyseres teknisk aktivitet og kommunikationsadfærd parallelt for at give kontekstuel indsigt, uden at der antages kausale sammenhænge. Den batch-orienterede tilgang er et bevidst arkitektonisk og governance-mæssigt valg, hvor dataejerskab forbliver hos den dataafgivende organisation, og kuraterede datasæt kan deles asynkront med fremtidige open source-baserede analyseaktører. Resultaterne viser, at det er metodisk muligt at integrere heterogene datakilder i en sammenhængende analysepipeline under stærke privatlivsgarantier. Specialet demonstrerer, at meningsfulde analytiske indsigter kan udledes alene på baggrund af metadata og aggregerede repræsentationer, samt at sproglig form og tematisk indhold udgør to adskilte, men komplementære analysetilgange. Samlet set bidrager specialet med en transparent og etisk forankret metodisk ramme for integreret analyse af kommunikations- og netværksdata. Selvom resultaterne er begrænset af PoC-rammen og et kontrolleret datagrundlag, etablerer arbejdet et solidt fundament for videre forskning og praktisk afprøvning i kontekster, hvor databeskyttelse, governance og analytisk kvalitet er afgørende.

This thesis investigates how network-based anomaly detection and NLP-based analysis of user-generated communication can be integrated within a shared analytical framework under strict requirements for data minimization, pseudonymization, and methodological transparency. The study is conducted as Proof of Concept (PoC) and focuses on demonstrating methodological feasibility and architectural coherence rather than statistical generalization or full-scale production deployment. The analytical framework is based on a modular, pipeline-oriented architecture implemented on a cloud-native platform. The architecture supports controlled data ingestion, systematic pseudonymization, and batch-oriented analysis workflows. Although a live pilot deployment with participating NGOs could not be initiated within the project timeframe, the full analytical architecture was implemented, and data was generated directly through the platform. The absence of an NGO pilot therefore represents an organizational and temporal limitation rather than a technical one. The empirical foundation of the thesis consists of heterogeneous data sources, including communication data from platforms such as Telegram, WhatsApp, and WordPress, survey data, and network traffic logs collected from controlled test scenarios against an Azure-hosted WordPress environment. To preserve privacy and comply with data protection principles, all datasets were pseudonymized, and only metadata and aggregated representations were used in the analyses. No raw personal identifiers, message payloads, or network payload content were accessed. Methodologically, the thesis combines two complementary analytical components. First, network-based anomaly detection is applied to network traffic metadata using a limited set of interpretable technical features, such as traffic volume, connection frequency, protocol distribution, and temporal patterns. Anomalies are defined strictly as statistical or structural deviations from an established baseline and are not interpreted as indicators of malicious behavior or security incidents. Supervised machine learning models are employed to classify traffic patterns in a transparent and evaluable manner. Second, NLP-based analysis is applied to user-generated text using transparent, unsupervised methods. Textual data are aggregated at the user level and represented using Term Frequency–Inverse Document Frequency (TF-IDF). This approach enables the construction of quantitative user profiles that capture both linguistic characteristics and thematic orientation without relying on predefined categories or supervised labeling. In addition, language consistency across platforms is analyzed by measuring the relative use of Persian (Farsi) and Latin scripts. The integration of network-based and text-based analyses is performed at an analytical level through shared pseudonymized identifiers and temporal constraints. Where possible, technical activity and communication behavior are examined in parallel to provide contextual insight, without assuming causal relationships. The batch-oriented nature of the system reflects an intentional design choice, in which data ownership remains with the data-producing organization and curated datasets may be shared asynchronously with future open-source–based analytical entities for feedback and evaluation. The results demonstrate that it is methodologically feasible to integrate heterogeneous data sources into a coherent analytical framework while maintaining strong privacy guarantees. The thesis shows that meaningful insights can be derived from metadata and aggregated representations alone and that linguistic form and thematic content constitute distinct but complementary analytical dimensions. In conclusion, the thesis contributes a transparent and ethically grounded methodological framework for integrated analysis of communication and network data. While the findings are limited by the PoC scope and controlled data context, the work establishes a solid foundation for future research and practical experimentation in environments where privacy, governance, and analytical rigor are critical.

Dokumenter

Download
Vis denne rapport i AAU Studenterprojekter

Et masterspeciale fra Aalborg Universitet

En privatlivsbevarende ramme for integreret analyse af netværkstrafik og brugergenereret kommunikation