AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Entity Linking to Dynamically-Evolving Personal Knowledge Graphs in Conversations

Authors

;

Term

4. term

Education

Publication year

2022

Pages

28

Abstract

A key challenge in building conversational agents is giving responses that are tailored to each user. This requires organizing personal information and referring to it at the right moment. One promising way to represent such information is a knowledge graph, a network of facts linking people, places, and things; a personal knowledge graph (PKG) is a private version that captures facts about a specific user. From earlier work on populating PKGs, we observed two gaps. First, systems often fail to link mentions in a user’s utterance to the correct entries in their local PKG (the PKG Statement Linking problem). Second, they struggle to update the PKG with new information (PKG Enrichment). Because both are complex, we focus on the first. To support research on this task, we build a new dataset, since we found no conversational data annotated with textual triples, links to an open knowledge graph, and personal entities. Our dataset contains 100 conversations with triple annotations, personal entity annotations, and ConceptNet entity annotations. We selected ConceptNet, a common-sense knowledge graph, after surveying available open knowledge graphs. To gather annotations, we also provide three annotation website implementations. Our solution has two components: a Personal Entity Classifier (PEC) and a Personal Entity Disambiguator (PED). The PEC decides whether a non-pronoun entity mention in an utterance is already present in the user’s PKG. For this, we introduce a transformer-based model with modified input embeddings and a masking layer. Its input is a supergraph that combines the PKG with an Utterance Relation Graph (URG), which represents the utterance and its textual triples (two text spans and the relation between them). In tests against two baseline models, the PEC improves F1-score by 35-42% (F1 is a standard metric that balances precision and recall). The PED is a heuristic method that links a mention to a specific personal entity and uses coreference resolution to handle pronouns; it achieves an F1 of 0.87. We find that PEC is the critical component, as its errors compound and affect PED. While there is still room for improvement, our results clarify key elements of PKG population and move us closer to truly personalized conversations.

En central udfordring ved samtalerobotter er at give svar, der er tilpasset den enkelte bruger. Det kræver, at man organiserer personlige oplysninger og kan henvise til dem på det rette tidspunkt. En lovende måde at repræsentere sådan viden på er en vidensgraf, et netværk af fakta, der forbinder personer, steder og ting. En personlig vidensgraf (PKG) er en privat version, der rummer fakta om en bestemt bruger. Ud fra tidligere arbejde med at befolke PKG’er identificerede vi to mangler. For det første mangler systemer ofte at linke omtaler i en brugers ytring til de rigtige opslag i den lokale PKG (PKG Statement Linking-problemet). For det andet har de svært ved at opdatere PKG’en med ny information (PKG Enrichment). Da begge problemer er komplekse, fokuserer vi på det første. For at understøtte forskning i opgaven konstruerer vi et nyt datasæt, fordi vi ikke fandt samtaledata med både tekstuelle tripler, links til en åben vidensgraf og personlige entiteter. Datasættet omfatter 100 samtaler med triplannoteringer, personlige entitetsannoteringer og ConceptNet-entitetsannoteringer. Vi valgte ConceptNet, en vidensgraf for almen viden, efter en gennemgang af åbne vidensgrafer. For at indsamle annoteringer stiller vi også tre webbaserede annoteringsløsninger til rådighed. Vores løsning har to komponenter: en Personal Entity Classifier (PEC) og en Personal Entity Disambiguator (PED). PEC afgør, om en entitetsomtale uden stedord i en ytring allerede findes i brugerens PKG. Til dette introducerer vi en transformer-baseret model med ændrede input-embeddings og et maskeringslag. Inputtet er en supergraf, der kombinerer PKG’en med en Utterance Relation Graph (URG), som repræsenterer ytringen og dens tekstuelle tripler (to tekstdele og relationen imellem dem). I sammenligning med to baseline-modeller forbedrer PEC F1-scoren med 35-42% (F1 er et standardmål, der balancerer præcision og tilbagekaldelse). PED er en heuristikbaseret metode, som knytter en omtale til en specifik personlig entitet og bruger koreferensopløsning til at håndtere stedord; den opnår en F1 på 0,87. Vi ser, at PEC er den kritiske komponent, fordi fejl her forplanter sig og påvirker PED. Selvom der stadig er plads til forbedringer, giver resultaterne vigtig indsigt i befolkning af personlige vidensgrafer og bringer os tættere på personlige samtaler.

[This apstract has been rewritten with the help of AI based on the project's original abstract]