Papers on the Development of a Hybrid Approach to Web Usage Mining

Authors

Jespersen, Søren Enemærke ; Thorhauge, Jesper

Term

4. term

Education

Computer Science, Master

Publication year

2002

Abstract

This thesis brings together three articles on a hybrid method for web usage mining—analyzing how people interact with a website to find patterns. The method combines an aggregated structure (summarized usage data) with a data warehouse schema (detailed, queryable storage) to enable flexible, constraint-based knowledge extraction (for example, using filters and conditions). The first article is a case study on an interactive story. It develops the MIMER framework for extracting knowledge from usage, describes the hybrid approach, and shows principal user interfaces. The second article extends the approach with PEHA, which validates the extracted knowledge against all usage data stored in the data warehouse. Experiments show that validation can be performed in near-constant time and is competitive with a rival data warehouse schema in terms of running time, flexibility, and storage use. The third article evaluates the quality of knowledge extracted from the aggregated structure by assessing similarity and accuracy. The experiments indicate that quality is relatively high, but it decreases as the size of the extracted knowledge grows relative to the precision of the aggregated structure.

Dette speciale samler tre artikler om en hybrid metode til webbrugsanalyse (web usage mining) – altså at analysere, hvordan brugere interagerer med et website for at finde mønstre. Metoden kombinerer en aggregeret struktur (opsummerede brugsdata) med et datawarehouseskema (detaljeret, søgbart lager) og muliggør fleksibelt, begrænsningsbaseret udtræk af viden (fx via filtre og betingelser). Den første artikel er et casestudie af en interaktiv fortælling. Her udvikles rammeværket MIMER til at udtrække viden fra brugen, den hybride tilgang beskrives, og centrale brugergrænseflader vises. Den anden artikel udvider tilgangen med PEHA, som validerer den udtrukne viden mod alle brugsdata i datawarehouse’et. Forsøg viser, at valideringen kan ske på næsten konstant tid og er konkurrencedygtig i forhold til et alternativt datawarehouseskema mht. kørselstid, fleksibilitet og pladskrav. Den tredje artikel vurderer kvaliteten af viden udtrukket fra den aggregerede struktur ved at måle lighed og nøjagtighed. Resultaterne indikerer, at kvaliteten er relativt høj, men falder i takt med at størrelsen af den udtrukne viden vokser i forhold til den aggregerede strukturs præcision.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Papers on the Development of a Hybrid Approach to Web Usage Mining