'Multi-Relational Decision Tree Based on Selection Graph'
Authors
Tu, Nguyen Ba ; Flores, Jorge Arturo Sanchez
Term
10. Term
Education
Publication year
2006
Abstract
Data mining har til formål at finde nyttige mønstre i store datamængder. Mange kendte algoritmer virker kun på én tabel, selv om de fleste virkelige data ligger i relationelle databaser med flere sammenkædede tabeller. Multi-relationel data mining er lavet til sådanne miljøer og omfatter metoder som associeringsregler, beslutningstræer og afstandsbaserede teknikker. Denne afhandling fokuserer på multi-relationelle beslutningstræer opbygget ved hjælp af et selection graph, en måde at repræsentere, hvordan relaterede tabeller er forbundet, og hvilke data der vælges fra dem. Vi går fra teori til praksis: vi gennemgår eksisterende idéer om selection graphs og peger på deres begrænsninger; vi præsenterer en formel definition af selection graph; vi implementerer en beslutningstræ-læringsalgoritme baseret på denne repræsentation; og vi udfører eksperimenter. Til sidst sammenligner vi vores resultater med dem fra et kommercielt data mining-værktøj for at vurdere kvaliteten af vores tilgang.
Data mining aims to find useful patterns in large datasets. Many well-known algorithms work only on a single table, even though most real-world data is stored in relational databases with multiple linked tables. Multi-relational data mining addresses this setting and includes methods such as association rule discovery, decision trees, and distance-based techniques. This thesis focuses on multi-relational decision trees built using a selection graph, a way to represent how related tables are connected and which data is chosen from them. We move from theory to practice: we review existing ideas about selection graphs and point out their limitations; we present a formal definition of selection graphs; we implement a decision tree learning algorithm based on this representation; and we run experiments. Finally, we compare our results with those from a commercial data mining tool to assess the quality of our approach.
[This abstract was generated with the help of AI]
Documents
