Undersøgelse om vektor search, RAG og LLM kan bruges til at undersøge SQL server logs

Oversat titel

An investigation into whether vector search, RAG, and LLMs can be used to analyze SQL Server logs

Forfatter

Ostersen, Steen

Semester

4. semester

Uddannelse

Datalogi (it), Kandidat

Udgivelsesår

2026

Resumé

Opgaven undersøger, om vektorsøgning, RAG (retrieval-augmented generation) og LLM’er kan anvendes til analyse af SQL Server-logs. Som pilot fokuseres der på et teknisk proof-of-concept: valg af AI/data-platform, opbygning af et ETL-flow med sigte på streaming og test af embedding-baseret søgning i logtekst. Efter sammenligning af Databricks og Microsoft Fabric anvendes Microsoft Fabric Eventhouse på grund af tilgængelighed og streamingunderstøttelse, med LLM-hjælp til at generere ETL- og PySpark-kode. Et syntetisk logdatasæt (100.000 poster) er skabt med ChatGPT, indlæst i Eventhouse og embedded på fire tekstfelter (Event_Type, Database_Name, Sql_Text, Error_Message) for at lave et samlet vektorindeks egnet til et lille datasæt. Prototypen demonstrerer vektor- og hybridsøgninger, for eksempel deadlock-forespørgsler filtreret på databasenavn, og skitserer, hvordan RAG/LLM kan accelerere kodning, informationssøgning og fejlfinding, mens beslutninger stadig træffes af DBA/ledelse (hybrid intelligens). Projektet betoner samarbejde på tværs af roller og en kombination af kvalitative og kvantitative metoder; automatisering er begrænset til ETL-flowet, og AI bruges som hjælpeværktøj. Detaljerede analyseresultater (fx netværks- og sikkerhedsanalyser) forventes i senere afsnit og indgår ikke i dette uddrag.

This thesis investigates whether vector search, retrieval-augmented generation (RAG), and large language models (LLMs) can be applied to the analysis of SQL Server logs. As a pilot, the work focuses on a technical proof of concept: selecting an AI/data platform, building an ETL pipeline with streaming in mind, and testing embedding-based search over log text. After comparing Databricks and Microsoft Fabric, the study uses Microsoft Fabric Eventhouse due to accessibility and streaming support, with LLM assistance to generate ETL and PySpark code. A synthetic log dataset (100,000 entries) was created with ChatGPT, loaded to Eventhouse, and embedded on four text fields (Event_Type, Database_Name, Sql_Text, Error_Message) to create a combined vector index suitable for a small dataset. The prototype demonstrates vector and hybrid searches, for example deadlock queries filtered by database name, and outlines how RAG/LLM can accelerate coding, information retrieval, and troubleshooting while keeping decision-making with DBA/management (hybrid intelligence). The project emphasizes cross-role collaboration and a mix of qualitative and quantitative methods; automation is limited to the ETL flow, and AI is used as a helper. Detailed analytical results (e.g., network and security analyses) are planned for later sections and are not included in this excerpt.

[Dette resumé er genereret med hjælp fra AI direkte fra projektet fuldtekst]

Dokumenter

Download PDF
Vis denne rapport i AAU Studenterprojekter

Et masterspeciale fra Aalborg Universitet

Undersøgelse om vektor search, RAG og LLM kan bruges til at undersøge SQL server logs