Using XML Data in OLAP Queries
Authors
Riis, Karsten ; Pedersen, Dennis
Term
4. term
Education
Publication year
2001
Abstract
Nutidens hurtigt skiftende forretningsbehov passer dårligt med traditionelle OLAP-systemer (On-Line Analytical Processing), som bruges til at analysere data organiseret i dimensioner som tid, produkt og region. At tilføje uventede datakilder fysisk er ofte langsomt og ressourcekrævende, så en logisk integration—det vil sige at forbinde datakilder uden at flytte eller omforme dem—er ofte mere egnet. Da Extended Markup Language (XML) i stigende grad bruges, blandt andet i B2B-applikationer, vil nye data ofte være tilgængelige som XML. Dette arbejde præsenterer en fleksibel og teoretisk velunderbygget metode til logisk føderation af OLAP- og XML-datakilder. Den gør det muligt at referere eksterne XML-data direkte i OLAP-forespørgsler, vise XML-data sammen med dimensionelle data i resultaterne, og bruge XML-data til udvælgelse og gruppering. Der lægges særlig vægt på at undgå semantiske problemer, så betydning og sammenhæng bevares på tværs af kilder. For at demonstrere mulighederne introducerer vi et multi-skema forespørgselssprog baseret på SQL (for databaser) og XPath (for XML), samt et komplet fødereret system. Systemet omfatter et formelt grundlag, regler til at omskrive forespørgsler (algebraiske rewrite-regler), arkitektonisk og proceduremæssigt design samt effektive omkostningsbaserede optimeringsteknikker. En prototype er under udvikling, og de første eksperimenter tyder på, at den fødererede tilgang er et realistisk alternativ til fysisk integration. Metoden giver en stærk og fleksibel måde at håndtere uventede eller kortvarige databehov og hurtigt skiftende data. Fordi næsten alle datakilder effektivt kan indkapsles som XML, kan tilgangen også logisk integrere eksterne data fra relationelle, objekt-relationelle og objekt databaser, hvilket åbner nye anvendelsesområder for OLAP.
Today’s fast-changing business needs are not well served by traditional OLAP (On-Line Analytical Processing) systems, which analyze data organized into dimensions such as time, product, and region. Physically adding unexpected data sources is often slow and costly, so logical integration—linking sources without moving or transforming the data—is often a better fit. Because Extended Markup Language (XML) is increasingly used, for example in B2B applications, new data will often be available as XML. This work presents a flexible, theoretically grounded method for the logical federation of OLAP and XML data sources. It allows OLAP queries to reference external XML data, display XML alongside dimensional data in results, and use XML for selection and grouping. Special care is taken to avoid semantic issues so meaning and consistency are preserved across sources. To demonstrate the approach, we introduce a multi-schema query language based on SQL (for databases) and XPath (for XML), along with a complete federated system. The system includes a formal foundation, rules for rewriting queries (algebraic rewrite rules), architectural and procedural design, and effective cost-based optimization techniques. A prototype is being developed, and initial experiments indicate that the federated approach is a feasible alternative to physical integration. It offers a powerful, flexible way to handle unexpected or short-term data needs and rapidly changing data. Since most data sources can be efficiently wrapped as XML, the approach also enables logical integration of external data from relational, object-relational, and object databases, opening new application areas for OLAP.
[This abstract was generated with the help of AI]
Documents
