AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Multi-dimensional Classification - Data Mining using Data Cubes

Author

Term

4. term

Publication year

2003

Abstract

Dette speciale undersøger, hvordan man kan anvende data mining (at finde mønstre automatisk i data) på data fra datalagre (data warehouses), som organiserer information i flerdimensionelle strukturer, for eksempel efter produkt og kunde. Vi gennemgår teori om datalagre for at forstå, hvordan data er opbygget. Med et datasæt om produktsalg og kundebetalinger designer vi først en flerdimensionel model og, vigtigere, opbygger praktisk erfaring med sådanne modeller. Derefter afprøver vi et traditionelt data mining-værktøj (Clementine) på de flerdimensionelle data for at finde ud af, hvor standardværktøjer kommer til kort. På den baggrund foreslår vi en generel måde at analysere flerdimensionelle data på og ændringer til algoritmer, der lærer beslutningstræer (en maskinlæringsmetode, der bygger træ-lignende regler), så de udnytter strukturen bedre. Til sidst vurderer vi den foreslåede analysemetode med en prototype af en grafisk brugergrænseflade og afprøver nogle af de foreslåede ændringer til beslutningstræ-induktion på det anvendte datasæt.

This thesis explores how to apply data mining (automated methods to find patterns) to data from data warehouses, which organize information in multidimensional structures, for example by product and customer. We review data warehouse concepts to understand how such data is shaped. Using a dataset on product sales and customer payments, we first design a multidimensional model and, more importantly, gain hands-on experience with this type of design. We then test a traditional data mining tool (Clementine) on the multidimensional data to identify where standard tools struggle. Based on these findings, we propose a general approach for analyzing multidimensional data and suggest modifications to algorithms that learn decision trees (a machine learning method that builds tree-like rules) so they better use the structure. Finally, we assess the proposed approach with a prototype graphical interface and evaluate some of the proposed decision tree changes on the sales-and-payments dataset.

[This abstract was generated with the help of AI]