AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Integrating News Article Metadata into Topic Models

Authors

; ;

Term

4. term

Publication year

2021

Submitted on

Pages

32

Abstract

Emnemodeller (topic models) er metoder, der automatisk finder gennemgående temaer i store mængder tekst. Metadata – ekstra oplysninger om hvert dokument som forfatter, kategori eller placering i en taksonomi (en hierarkisk emnestruktur) – kan hjælpe disse modeller med at blive mere præcise og nyttige. I dette arbejde præsenterer vi to udvidelser af Latent Dirichlet Allocation (LDA), der inddrager forfatter- og kategorimetadata, bygget med udgangspunkt i den eksisterende author-topic-tilgang. Derudover introducerer vi en udvidelse af Pachinko Allocation Model (PAM), der kan bruge taksonomi-metadata. For at få PAM til at udnytte denne viden udvikler vi en ny “emnelåsningsmekanisme”, som hjælper modellen med at respektere den givne taksonomi. På et datasæt med nyhedsartikler viser vores taksonomi-baserede model, at metadata kan integreres effektivt. Sammenlignet med den oprindelige PAM reducerer den køretiden, og i forhold til LDA giver den højere emnekohærens (et mål for hvor godt et emnes vigtigste ord passer sammen) og mere forståelige temaer. Samlet set viser resultaterne, at inddragelse af metadata kan forbedre emnemodellering på flere måder.

Topic models are methods that automatically discover themes across large collections of documents. Metadata—extra information about each document such as the author, category, or place in a taxonomy (a hierarchical topic structure)—can make these models more accurate and useful. We present two extensions of Latent Dirichlet Allocation (LDA) that incorporate author and category metadata, building on the existing author-topic approach. We also introduce a taxonomy-aware extension of the Pachinko Allocation Model (PAM). To enable PAM to use taxonomy information, we develop a novel “topic locking” mechanism that helps the model adhere to the provided taxonomy. On a dataset of news articles, our taxonomy-topic model integrates metadata effectively. Compared with the original PAM, it reduces elapsed time, and compared with LDA, it produces higher topic coherence (a standard measure of how well a topic’s top words fit together) and more understandable topics. Overall, our results show that adding metadata can improve topic modeling in several ways.

[This summary has been rewritten with the help of AI based on the project's original abstract]