The Generalization Gap in Neural Cryptanalysis: Evaluating Decoder-Only Models on Substitution Ciphers
Authors
Riedel, Johan Nissen ; Andersen, Morten Munk ; Holt, Magnus Peetz
Term
4. term
Education
Publication year
2026
Submitted on
2026-06-03
Pages
32
Abstract
Homophonic substitution ciphers replace each plaintext letter with multiple possible symbols, which has made them historically hard to break. Heuristic tools like AZdecrypt are effective but usually limited to texts of about 4,000 characters. We explore whether modern decoder-only large language models (LLMs) can automatically decrypt homophonic ciphers up to 10,000 characters. Instead of using discrete search, we cast decipherment as a sequence-modeling problem on a recurrence-encoded version of the ciphertext, allowing a neural model to learn the mapping from symbols to letters. To train and evaluate consistently, we generate three synthetic datasets: (1) homophonic ciphers up to 10,000 characters, (2) a truncated homophonic set capped at 4,000 characters, and (3) monoalphabetic ciphers up to 10,000 characters. Each dataset has its own validation split, and all models are tested on a single common test set that spans different sequence lengths, redundancies, and structural boundaries. Off-the-shelf frontier LLMs perform poorly at character-level decryption in zero-shot and few-shot settings: they produce nearly 100% Symbol Error Rate (SER) and show severe linguistic hallucinations. We therefore train scaled-down, custom causal models (e.g., LLaMA, Mistral, SmolLM2) from scratch, optimized for hardware efficiency and long-context processing. These models avoid the hard length limits of traditional solvers, but autoregressive generation still accumulates errors during inference. Our study offers a baseline for applying causal language models to historical cryptanalysis and highlights limits in current self-attention mechanisms when solving many-to-many mappings over extended context windows.
Homofoniske substitutionschifre erstatter hvert bogstav i klarteksten med flere mulige symboler, hvilket gør dem historisk svære at bryde. Heuristiske værktøjer som AZdecrypt er effektive, men er typisk begrænset til tekster på omkring 4.000 tegn. Vi undersøger, om moderne decoder-only store sprogmodeller (LLM’er) kan dekryptere homofoniske chifre automatisk op til 10.000 tegn. I stedet for diskret søgning modellerer vi dechifrering som et sekvensproblem på en recurrence-kodet version af chifferteksten, så en neuralt model kan lære koblingen fra symboler til bogstaver. For at træne og evaluere konsekvent genererer vi tre syntetiske datasæt: (1) homofoniske chifre op til 10.000 tegn, (2) et trunkeret homofonisk sæt på op til 4.000 tegn og (3) monoalfabetiske chifre op til 10.000 tegn. Hvert datasæt har sit eget valideringssplit, og alle modeller testes på et fælles testset, der dækker varierende sekvenslængder, redundanser og strukturer. Generelle LLM’er fra toppen af feltet klarer sig dårligt ved dekryptering på symbolniveau i zero-shot og few-shot: de giver næsten 100% Symbol Error Rate (SER) og udviser markante lingvistiske hallucinationer. Derfor træner vi nedskalerede, skræddersyede kausale modeller (fx LLaMA, Mistral og SmolLM2) fra bunden, optimeret til hardwareeffektivitet og lang-kontekst behandling. Disse modeller undgår de hårde længdegrænser i traditionelle løsere, men autoregressiv generering akkumulerer stadig fejl under inferens. Studiet leverer en baseline for brugen af kausale sprogmodeller i historisk kryptanalyse og peger på begrænsninger i nutidens self-attention-mekanismer, når de skal løse many-to-many-mapping over udvidede kontekstvinduer.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
transformers ; cryptanalysis ; ciphers ; llama ; mistral ; smollm ; flash-attention ; llm
