Modelling news progression using entity-timelines
Authors
Thygesen, Martin Hammer ; Stisen, Michael
Term
4. term
Education
Publication year
2018
Submitted on
2018-06-14
Pages
28
Abstract
Denne afhandling adresserer informationsmængden i nyheder ved at fokusere på, hvordan man giver overblik over, hvem der indgår i hvilke begivenheder over tid. Vi foreslår en metode til at modellere nyhedsforløb ved hjælp af entitets‑tidslinjer visualiseret som et metrokort: Hver linje repræsenterer en navngiven entitet (fx personer eller organisationer), og hvert stop er en begivenhed skabt ved at klynge relaterede artikler og udvælge repræsentative sætninger. Systemet er designet til små datasæt fra én eller få kilder og har særligt til formål at fremhæve mindre profilerede aktører, såsom lokale politikere. Metoden bygger på dansk navngiven entitetsgenkendelse og -afklaring fra tidligere arbejde, som vi har accelereret med en simpel regelbaseret tærskel for popularitetsprior samt en kortlægning fra sprog til lande; disse tiltag reducerer beregningstiden men kan påvirke nøjagtigheden i enkelte tilfælde. Begivenheder identificeres ved ikke‑sandsynlige klyngemodeller, herunder BIGCLAM til tæt overlappende klynger, med dokumentvalg via fritekstsøgning, filtrering med kosinus‑lighed og efterfølgende bag‑of‑words‑klyngning; tid behandles diskret. Vi anvender et dansk aviskorpus fra NORDJYSKE til at demonstrere fremgangsmåden. Afhandlingen beskriver opsætningen af brugerstudier for at vurdere nytte og forståelighed af visualiseringen; konkrete resultater er ikke gengivet i dette uddrag.
This thesis addresses news information overload by focusing on how to provide an overview of who takes part in which events over time. We propose a method for modeling news progression using entity timelines presented as a metro map: each line represents a named entity (e.g., people or organizations), and each stop is an event formed by clustering related articles and selecting representative sentences. The system targets small datasets from one or few sources and is intended to highlight less prominent actors, such as local politicians. Our approach builds on prior Danish named entity recognition and disambiguation, which we accelerate with a popularity‑prior threshold and a language‑to‑country mapping; these changes reduce runtime but may affect accuracy in some cases. Events are identified with non‑probabilistic clustering, including BIGCLAM to handle densely overlapping clusters, with document selection via free‑text search, cosine‑similarity filtering, and subsequent bag‑of‑words clustering; time is modeled discretely. We demonstrate the workflow on a Danish newspaper corpus from NORDJYSKE. The thesis outlines user study setups to assess usefulness and interpretability of the visualization; specific findings are not included in this excerpt.
[This summary has been generated with the help of AI directly from the project (PDF)]
Documents
