DWStar - Automated Star Schema Generation
Authors
Tarp, Michael ; Jensen, Søren ; Hansen, Jacob Bach
Term
4. term
Education
Publication year
2017
Submitted on
2017-06-02
Abstract
Dette speciale undersøger muligheden for at automatisere opgaver i Business Intelligence ved at generere stjerneskemaer til datavarehuse direkte ud fra operationelle kildesystemer. Vi præsenterer DWStar, en konfigurerbar, modulær løsning, der gennem fem faser (metadata, raffinering, star, star-raffinering og generering) kan udtrække og/eller inferere metadata fra relationelle databaser og CSV-filer, identificere primærnøgler og relationer, udpege kandidater til fakta- og dimensionstabeller, forfine designet (navngivningskonventioner, dato- og tidsdimensioner, surrogatnøgler, junk-dimensioner) samt generere SQL- og ETL-scripts til at oprette og befolke datavarehuset. Modulerne bygger på heuristikker fra litteraturen og forfatternes erfaringer og kan udskiftes eller udvides af brugeren. Vi gennemfører en praktikerevaluering og to eksperimenter: En BI-praktiker vurderer de producerede stjerneskemaer for Northwind-databasen og en sekundær database og giver overvejende positiv feedback, mens forsøg viser, at metadata-inferens for CSV-filer er tilfredsstillende, og at oprettelse og befolkning af et datavarehus sker inden for rimelig tid. Samlet set viser DWStar, at en betydelig del af design og dataindlæsning til stjerneskemaer kan automatiseres uden at opgive tilpasningsmuligheder.
This thesis investigates whether data warehouse design tasks can be automated by generating star schemas directly from operational source systems. We present DWStar, a configurable, modular pipeline that, across five phases (metadata, refinement, star, star refinement, and generation), extracts and/or infers metadata from relational databases and CSV files, discovers primary keys and relationships, identifies candidate fact and dimension tables, refines designs (naming conventions, date and time dimensions, surrogate keys, junk dimensions), and generates SQL and ETL scripts to create and populate the warehouse. The modules implement heuristics drawn from prior work and the authors' experience and can be replaced or extended by users. We conduct a practitioner evaluation and two experiments: a BI practitioner reviews star schemas produced for the Northwind database and a secondary database and gives mainly positive feedback; experiments show that metadata inference for CSV files is satisfactory and that warehouse creation and loading complete within reasonable time. Overall, DWStar demonstrates that a substantial portion of star schema design and data loading can be automated without sacrificing configurability.
[This summary has been generated with the help of AI directly from the project (PDF)]
Documents
