A Context-Aware Framework for LLM Security Posture Assessment
Author
Babó, Péter Levente
Term
4. semester
Education
Publication year
2026
Submitted on
2026-06-03
Pages
74
Abstract
Security scanners like garak can test large language models (LLMs) and report in detail where they fail. A raw scan report, however, does not tell a non-expert what the findings mean in a specific use, because the same weakness can be acceptable in one context and unacceptable in another. Existing tools do not make this distinction. This thesis introduces a context-aware framework that translates LLM vulnerability scan results into security insights that non-expert stakeholders can act on. The framework groups garak’s probes into eight vulnerability clusters, linked to the OWASP LLM Top 10 and MITRE ATLAS, and scores a scan by weighting each cluster according to a chosen deployment context (the setting and purpose for which the model is used). The output is a qualitative risk posture, a cluster profile, and practical recommendations, implemented as an open proof-of-concept tool, garak-context. The framework was evaluated through a worked demonstration and a usability study with non-expert participants. The demonstration showed that the same scan yields different leading concerns depending on context. In the study, participants who could not identify a model’s main risk or next action from a raw report could do both with the framework’s report, which they also rated clearer and more actionable. The work shows that interpreting scan results through the lens of deployment context is what makes them meaningful to those who must act on them.
Sikkerhedsskannere som garak kan teste store sprogmodeller (LLM’er) og beskrive i detaljer, hvor de fejler. Et råt skanneresultat fortæller dog ikke en ikke-ekspert, hvad fundene betyder i en konkret anvendelse, fordi den samme svaghed kan være acceptabel i én kontekst og uacceptabel i en anden. Nuværende skanningsværktøjer skelner ikke mellem disse kontekster. Denne afhandling præsenterer et kontekstbevidst rammeværk, der oversætter LLM-skanresultater til sikkerhedsindsigter, som ikke-eksperter kan handle på. Rammeværket grupperer garaks tests i otte sårbarhedsklynger, knyttet til OWASP LLM Top 10 og MITRE ATLAS, og vurderer en skan ved at vægte hver klynge efter en valgt anvendelseskontekst (det miljø og formål, modellen bruges til). Resultatet er en kvalitativ risikoprofil, en klyngeprofil og konkrete anbefalinger, implementeret som et åbent proof-of-concept-værktøj, garak-context. Rammeværket blev evalueret med en gennemført demonstration og en brugbarhedsundersøgelse med ikke-ekspert-deltagere. Demonstrationen viste, at den samme skan giver forskellige hovedbekymringer afhængigt af konteksten. I undersøgelsen kunne deltagere, der ikke kunne identificere modellens største risiko eller næste skridt ud fra en rå rapport, gøre begge dele med rammeværkets rapport, som de også vurderede som klarere og mere handlingsbar. Arbejdet viser, at tolkning af skanresultater i lyset af anvendelseskontekst gør dem meningsfulde for dem, der skal handle på dem.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
