ClinicalQA: A benchmark for end-to-end evaluation of QA systems over JSON documents

Authors

Pedersen, Tobias ; Hansen, Daniel Faurholdt ; Nielsen, Kristian Sjørslev

Term

4. semester

Education

Data Science and Machine Learning, Msc.

Publication year

2026

Abstract

Modern Question Answering (QA) systems have difficulty handling complex, semi-structured data such as JSON files. Existing evaluation datasets (benchmarks) do not fully reveal these weaknesses, because they do not examine how structural complexity affects performance and they separate information retrieval (IR) from answer generation (AG). To better measure how QA systems perform in realistic, end-to-end settings, we introduce ClinicalQA, a new benchmark built from structurally complex JSON documents. Using ClinicalQA together with existing datasets, we evaluate two main approaches: a state-of-the-art Retrieval-Augmented Generation (RAG) pipeline, Magikarp, and a Natural Language to Query Language architecture, NL2JQ. We show that ClinicalQA can effectively assess both the information retrieval and answer generation capabilities of Magikarp. In contrast, we find that NL2JQ fundamentally lacks the ability to retrieve relevant documents and to generate free-text answers, making it incompatible with ClinicalQA. Our analysis further demonstrates how early retrieval errors systematically propagate into later generation errors, highlighting the importance of evaluating QA systems end-to-end. Finally, the results show that both IR and AG performance are directly influenced by the structural complexity of the ground-truth JSON context, in particular its average leaf depth and branching factor.

Moderne spørge-svar-systemer (Question Answering, QA) har svært ved at håndtere komplekse, delvist strukturerede data som JSON-filer. De mest brugte testdatasæt (benchmarks) afslører ikke disse svagheder, fordi de hverken fokuserer på, hvordan strukturel kompleksitet påvirker præcisionen, eller tester hele processen fra informationssøgning til selve svarformuleringen. For bedre at kunne måle, hvordan QA-systemer klarer sig i praksis, introducerer vi ClinicalQA, et nyt benchmark baseret på strukturelt komplekse JSON-dokumenter. Ved hjælp af ClinicalQA og eksisterende datasæt undersøger vi to hovedtilgange: en avanceret Retrieval-Augmented Generation (RAG) pipeline, Magikarp, og en arkitektur, der oversætter naturligt sprog til forespørgselssprog, NL2JQ. Vi viser, at ClinicalQA effektivt kan måle både informationssøgning (Information Retrieval, IR) og svargenerering (Answer Generation, AG) i Magikarp. Omvendt finder vi, at NL2JQ grundlæggende mangler evnen til både at finde relevante dokumenter og generere fritekstsvar, hvilket gør den uegnet til ClinicalQA. Vores analyse viser desuden, hvordan tidlige fejl i søgefasen systematisk fører til efterfølgende fejl i den genererede tekst, hvilket understreger, hvor vigtigt det er at evaluere QA-systemer end-to-end. Endelig viser resultaterne, at både IR- og AG-ydelsen påvirkes direkte af den strukturelle kompleksitet i den JSON-kontekst, systemet skal bruge som facit, især dens gennemsnitlige blad-dybde og forgreningsgrad.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Keywords

RAG ; NL2JQ ; Benchmark ; JSON ; Semi-structured data

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

ClinicalQA: A benchmark for end-to-end evaluation of QA systems over JSON documents