GATekeeper: Detecting Schema-Induced Ambiguity in Natural Language Interfaces to Databases
Authors
Skadborg, Jacob Johannes Sigurd ; Mortensen, Martin Keck Søndersø
Term
4. term
Education
Publication year
2025
Submitted on
2025-06-12
Pages
11
Abstract
Naturligt sprog til SQL (NL2SQL) systemer oversætter spørgsmål i hverdagssprog til kørbare SQL-forespørgsler, så ikke-tekniske brugere kan arbejde med databaser. En central udfordring er tvetydighed forårsaget af selve databaseskemaet, kaldet Schema-Induced Ambiguity (SIA): ord i et spørgsmål kan passe på flere tabeller, kolonner eller relationer, når navne eller forbindelser overlapper. Det er almindeligt i virkelige databaser med udviklende og denormaliserede skemaer, som afviger fra de mere rene strukturer i forskningsbenchmarks som Spider og BIRD. De fleste eksisterende metoder håndterer tvetydighed kun implicit. Store sprogmodeller kan afhjælpe sproglige misforståelser, men de opdager ikke pålideligt strukturel tvetydighed uden eksplicit ræsonnering over skemaet. Få systemer markerer aktivt SIA, før de genererer en forespørgsel, hvilket kan give stille fejl og misfortolkninger. Vi foreslår en totrins ramme til detektion. Først bruger vi en finjusteret BERT cross-encoder til at identificere de skemaelementer (tabeller, kolonner, relationer), som spørgsmålet sandsynligvis handler om. Dernæst kører vi et Graph Attention Network (GAT)—et neuralt netværk der udnytter forbindelser mellem elementer—på den afledte delgraf for at forudsige, om spørgsmålet er tvetydigt. Vores metode overgår baseline-tilgange i det domæne, den er trænet på. Generalisering til ikke-ssete skemaer er dog begrænset, hvilket ses ved ydelsesfald på BIRD-bench og Trial-Bench. Til gengæld viser in-context træning lovende potentiale for at skalere tvetydighedsdetektion. Arbejdet fokuserer udelukkende på skemainduceret tvetydighed; fremtidige udvidelser bør også håndtere andre typer for at øge driftssikkerheden. Kode: https://github.com/P10-NLIDB.
Natural Language to SQL (NL2SQL) systems turn everyday questions into executable SQL queries, letting non-technical users work with databases. A key challenge is ambiguity caused by the database schema itself, called Schema-Induced Ambiguity (SIA): words in a question can match multiple tables, columns, or relationships when names or links overlap. This is common in real databases with evolving and denormalized schemas, which differ from the cleaner structures found in research benchmarks like Spider and BIRD. Most existing methods handle ambiguity only implicitly. Large language models can reduce wording issues, but they do not reliably detect structural ambiguity without explicit reasoning over the schema. Few systems proactively flag SIA before generating a query, leading to silent errors and misinterpretations. We propose a two-step detection framework. First, a fine-tuned BERT cross-encoder identifies the schema elements (tables, columns, relations) the question is most likely about. Next, a Graph Attention Network (GAT)—a neural network that pays attention to connections between elements—runs on the resulting subgraph to predict whether the question is ambiguous. Our approach outperforms baseline methods in-domain. However, generalization to unseen schemas remains limited, as shown by performance drops on BIRD-bench and Trial-Bench. In-context training shows strong potential for scaling ambiguity detection. This work focuses only on schema-induced ambiguity; future work should also address other forms of ambiguity to ensure reliability in production. Code: https://github.com/P10-NLIDB.
[This summary has been rewritten with the help of AI based on the project's original abstract]
Keywords
Documents
