Adaptive Red-Teaming and Stateful Defense Framework for Secure LLM Deployment
Authors
Ajek, Lojain ; Khadka, Manish ; Ghimire, Rabindra Raj
Term
4. term
Education
Publication year
2026
Submitted on
2026-05-31
Pages
62
Abstract
This thesis examines how post‑training Half‑Quadratic Quantization (HQQ) to 8‑ and 4‑bit affects safety‑aligned large language models and whether a learning‑based, stateful hybrid defense can stop “jailbreak” attacks that bypass guardrails. We build a practical evaluation pipeline with three core components: HQQ quantization, an adaptive chain‑of‑thought attacker (Qwen2.5‑7B) that makes up to five attempts per malicious target, and a stateful hybrid defense that combines vector memory (ChromaDB) of confirmed jailbreak embeddings, an online SGD classifier, and several complementary layers (including pattern checks, obfuscation normalization, hard blocklists, and an adaptive threshold that fuses cosine similarity and classifier confidence). Four instruction‑tuned models (Llama‑3.1‑8B, Mistral‑7B, Gemma‑2‑9B, Phi‑3.5‑mini) are evaluated on AdvBench and HarmBench at FP16, INT8, and INT4, with Qwen3Guard as the final safety judge, counting a jailbreak only when the model emits unsafe content without refusal. Findings indicate that well‑aligned models experience only minor increases in attack success under 4‑bit (typically 3–5 percentage points), while a less robust model drifts slightly more (6–7 points). Model size alone does not predict vulnerability; the quality of safety tuning is decisive. The proposed lightweight defense cuts successful attack rates to ≤5% across models and transfers across precisions, with jailbreaks discovered at higher precision also blocked at lower precision. Overall, careful HQQ quantization can compress well‑aligned LLMs without significantly compromising safety, and the work contributes a reproducible framework and practical guidance for secure deployment of quantized models.
Denne afhandling undersøger, hvordan efter-træningskvantisering med Half‑Quadratic Quantization (HQQ) til 8‑ og 4‑bit påvirker sikkerhedsjusterede store sprogmodeller, og om et læringsbaseret, tilstandsbevarende hybridforsvar kan stoppe såkaldte “jailbreak”-angreb, hvor en bruger forsøger at omgå modellens sikkerhedsregler. Vi udvikler en praktisk evalueringspipeline med tre hovedelementer: HQQ‑kvantisering, en adaptiv tankekædeangriber (Qwen2.5‑7B) med op til fem forsøg pr. skadeligt mål, og et statefuldt hybridforsvar, der kombinerer vektormin hukommelse (ChromaDB) over bekræftede jailbreak‑eksempler, en online SGD‑klassifikator og flere komplementære lag (bl.a. mønstergenkendelse, normalisering af obfuskering, hårde bloklister og en adaptiv tærskel baseret på cosinuslighed og klassifikatortillid). Fire instruktionstunede modeller (Llama‑3.1‑8B, Mistral‑7B, Gemma‑2‑9B og Phi‑3.5‑mini) evalueres på AdvBench og HarmBench ved FP16, INT8 og INT4, og Qwen3Guard fungerer som endelig sikkerhedsbedømmer, hvor et jailbreak kun tælles, hvis modellen faktisk leverer usikkert indhold uden at afvise. Resultaterne viser, at velforjusterede modeller kun oplever en lille stigning i angrebssuccesraten ved 4‑bit (typisk 3–5 procentpoint), mens en mindre robust model afviger lidt mere (6–7 point). Modelstørrelse i sig selv forudsiger ikke sårbarhed; kvaliteten af sikkerhedsjusteringen er afgørende. Det foreslåede letvægtsforsvar reducerer den vellykkede angrebsrate til ≤5 % på tværs af modeller og udviser overførbarhed på tværs af præcisioner, idet jailbreaks opdaget ved højere præcision også kan blokeres ved lavere. Arbejdet peger på, at omhyggelig HQQ‑kvantisering kan komprimere velforjusterede LLM’er uden væsentligt sikkerhedstab, og leverer samtidig en reproducerbar ramme og praktiske retningslinjer for sikker udrulning af kvantiserede modeller.
[This apstract has been generated with the help of AI directly from the project full text]
Other projects by the authors
Ajek, Lojain:
Khadka, Manish:
Ghimire, Rabindra Raj:
