AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


A new approach to design text mining based time-series forecasting systems

Author

Term

10. term

Publication year

2018

Pages

53

Abstract

This thesis examines text mining–based time-series forecasting with two aims: to map the current state of research and to develop a more suitable design framework for such systems. Through a literature review and subsequent problem analysis, it identifies key gaps, notably that the behavioral-economic rationale linking unstructured text to the target variable and early method choices in data and feature construction strongly constrain feasible algorithms and system architectures. Building on this, the thesis proposes an enhanced design approach that explicitly embeds behavioral-economic assumptions and cross-layer method dependencies, and highlights two overarching design paths: using the raw text body as features or first categorizing documents and using the resulting classes for prediction. The framework is illustrated on a case forecasting intraday market price movements from Twitter microblogs, testing neural networks and a tree-based method as binary classifiers; the tree-based approach achieves directional accuracy above a random baseline. The work discusses system complexity, overfitting risks, and limits to holistic optimization, and outlines future research on promising method combinations and applications in other domains.

Denne afhandling undersøger tekstmining-baseret tidsrækkeprognose og har to mål: at kortlægge den eksisterende forskning og at udvikle en mere velegnet designramme for sådanne systemer. Via en litteraturgennemgang og efterfølgende problemanalyse identificeres væsentlige huller i feltet, især at den adfærdsøkonomiske begrundelse for koblingen mellem ustruktureret tekst og målvariablen samt tidlige metodevalg i data- og featureskabelse i høj grad former, hvilke algoritmer og systemarkitekturer der er realistiske. På den baggrund foreslås en udvidet designtilgang, som eksplicit indarbejder adfærdsøkonomiske antagelser og afhængigheder mellem lag i systemet, og som peger på to overordnede designspor: at bruge selve tekstkroppen som features eller først at kategorisere dokumenter og bruge klasserne i prognosen. Til illustration anvendes rammen på en case om forudsigelse af intradag-bevægelser i markedspriser baseret på mikroblogs fra Twitter, hvor neurale netværk og en træbaseret metode afprøves som binære klassifikatorer; den træbaserede tilgang opnår en retningstræfsikkerhed over tilfældigt gæt. Afhandlingen diskuterer kompleksitet, risiko for overfitting og begrænsninger i holistisk optimering samt skitserer behov for fremtidige studier af lovende metodekombinationer og anvendelser i andre domæner.

[This apstract has been generated with the help of AI directly from the project full text]