Exploring Methods for Link Prediction on a Historical Geographic Knowledge Graph
Author
Agárdi, Balázs Márk
Term
4. term
Education
Publication year
2024
Abstract
Specialet undersøger, hvordan det parsede middelalderlige gazetteer, Yāqūt al‑Hamawīs Kitāb Muʿjam al‑Buldan, kan transformeres til en historisk geografisk knowledge graph og anvendes til linkprediktion for at støtte MEHDIE-projektets data-integrationsmål. Det introducerer centrale begreber som knowledge graphs, grafneurale netværk og evalueringsmål (fx Mean Rank og Hits@K), og analyserer den indledende graf med stedtyper samt hierarkiske og afstandskanter ved hjælp af netværksstatistik. Tidlige forsøg med embeddingsbaserede linkprediktionsmodeller (TransE, DistMult, ComplEx, HolE, RotatE) gav utilfredsstillende resultater, hvilket motiverede ændringer af grafens ontologi: fjernelse af afledte elementer fra Wikidata, binning af afstande, eksplicit modellering af hierarkier på tværs af niveauer samt tilføjelse af omvendte kanter. Specialet anvender derefter Neural Bellman‑Ford Networks (NBFNet), en state-of-the-art GNN til linkprediktion, som leverer marginale forbedringer på nogle mål. På baggrund heraf foreslås fortræning på et stort syntetisk datasæt konstrueret fra WorldKG (baseret på Open Street Maps) for at opnå bedre ydeevne og muliggøre kontrollerede bias. Der beskrives strategier til generering af kandidattripletter (bl.a. hop-begrænsning og cluster-trekanter), og forudsagte positive og potentielle falske positiver diskuteres, hvilket indikerer, at et GNN kan hjælpe med at opdage fejl fra den oprindelige regelbaserede parser. Afslutningsvis sammenfattes resultaterne samt mulige forbedringer, begrænsninger og fremtidige forskningsspor.
This thesis investigates how to transform the parsed medieval gazetteer, Yāqūt al‑Hamawī’s Kitāb Muʿjam al‑Buldan, into a historical geographic knowledge graph and use link prediction to support the MEHDIE project’s data integration goals. It introduces key concepts such as knowledge graphs, graph neural networks, and evaluation metrics (e.g., Mean Rank and Hits@K), and analyzes the initial graph with place types and hierarchical and distance edges using network statistics. Early experiments with embedding-based link prediction (TransE, DistMult, ComplEx, HolE, RotatE) underperformed, prompting revisions to the graph’s ontology: removing Wikidata-derived ancillary elements, binning distance edges, explicitly modeling multi-level hierarchies, and adding reverse edges. The study then adopts Neural Bellman‑Ford Networks (NBFNet), a state-of-the-art GNN for link prediction, which yields marginal improvements on some metrics. Based on these results, the thesis proposes pretraining on a large synthetic dataset constructed from WorldKG (built from Open Street Maps) to further improve performance and enable controlled biases. It outlines strategies for candidate triplet generation (including hop limiting and cluster triangles) and discusses predicted positives and potential false positives, indicating that a GNN can help flag errors from the original rule-based parser. The conclusion summarizes results and highlights possible improvements, limitations, and avenues for future research.
[This summary has been generated with the help of AI directly from the project (PDF)]
Documents
