Exploring methods to find and label latent topic-groups in a blogging environment

Author

Ndiaye, Seynabou

Term

4. term

Education

Innovative Communication Technologies and Entrepreneurship, Master

Publication year

2017

Submitted on

2017-09-14

Abstract

Twitter is best known for short tweets, but its official blog offers longer articles and is growing quickly. With around 1,600 entries, this blog is an important channel where users and businesses share information. This relatively overlooked area led us to ask: how are these posts grouped today, and how could grouping be improved? To explore this, we crawled the Twitter Blog and collected 100 entries. We applied cluster analysis (grouping similar documents) and topic modeling (finding underlying themes). In information retrieval, using contextual signals in document search is well studied; building on this, we describe our experimental design, process, and results for uncovering hidden structure with Latent Semantic Analysis (LSA) and the K‑means clustering algorithm, and we compare their performance. We then propose a categorization of the blog content and compare it with the categories available on Twitter’s portal. Our goal is a categorization that can make blog search more helpful. We also discuss practical challenges, especially how to label clusters with clear, meaningful topic names.

Twitter er bedst kendt for korte tweets, men dets officielle blog rummer længere artikler og vokser hurtigt. Med omkring 1.600 indlæg er bloggen en vigtig kanal, hvor brugere og virksomheder deler information. Denne forholdsvis oversete del vækkede vores nysgerrighed: Hvordan grupperes indlæggene i dag, og hvordan kan gruppering forbedres? For at undersøge dette crawlede vi Twitter-bloggen og indsamlede 100 indlæg. Vi anvendte klyngeanalyse (at gruppere lignende dokumenter) og emnemodellering (at finde underliggende temaer). Inden for informationssøgning er brugen af kontekstuelle signaler i dokumentsøgning velundersøgt; med dette som baggrund beskriver vi vores forsøgsdesign, proces og resultater for at afdække skjult struktur med Latent Semantic Analysis (LSA) og K‑means-klyngealgoritmen og sammenligner deres ydeevne. Derefter foreslår vi en kategorisering af blogindholdet og sammenligner den med de kategorier, som Twitter tilbyder på sin portal. Målet er en kategorisering, der kan gøre blogsøgning mere nyttig. Vi diskuterer også praktiske udfordringer, især hvordan man navngiver klynger med klare og meningsfulde emneetiketter.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Keywords

latent semantic analysis ; topic modelling ; lsa ; k-means ; lda

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

Exploring methods to find and label latent topic-groups in a blogging environment