AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Exploring the Efficacy of Specially-Trained Transformers on Geospatial Entity Matching of Historic Toponyms

Author

Term

4. term

Education

Publication year

2024

Submitted on

Pages

10

Abstract

Many projects are digitizing ancient and historical manuscripts, but most focus on a single civilization, language, or culture. This creates silos and makes it hard to link findings across projects. One way to connect them is by matching toponyms—place names—found in different sources. Traditional approaches often rely on transliteration, but results have been inconsistent. Transformer-based language models such as BERT have improved many language tasks, including toponym matching. However, these models are usually trained on large collections of modern text, often in English; even multilingual models mostly learn from modern web data. We ask whether training multilingual models on ancient texts in the target languages could work better for historical toponym matching. We adapt BERT-based models using ancient Arabic and Hebrew manuscripts—two related Semitic languages with historical dialects and substantial ancient corpora—to identify matching place names. We evaluate our methods on several datasets of historical toponyms assembled by Middle East scholars. The results were unexpected: the multilingual baseline model mBERT, pre-trained on modern data, outperformed our specialized models.

Mange projekter digitaliserer historiske og antikke håndskrifter, men de fleste fokuserer på én civilisation, ét sprog eller én kultur. Det skaber siloer og gør det svært at forbinde resultater på tværs af projekter. En måde at bygge bro er at matche toponymer—stednavne—som dukker op i forskellige kilder. Traditionelle metoder bygger ofte på translitteration, men resultaterne har været ujævne. Transformer-baserede sprogmodeller som BERT har forbedret mange sproglige opgaver, herunder matchning af stednavne. Disse modeller trænes dog typisk på store mængder moderne tekst, ofte på engelsk; selv flersprogede modeller lærer mest fra moderne webdata. Vi undersøger, om flersprogede modeller, der er trænet på antikke tekster i de relevante sprog, kan fungere bedre til historisk matchning af stednavne. Vi tilpasser BERT-baserede modeller ved hjælp af antikke arabiske og hebraiske håndskrifter—to beslægtede semitiske sprog med historiske dialekter og omfattende ældre tekstsamlinger—for at identificere matchende stednavne. Vi evaluerer vores metoder på flere datasæt med historiske stednavne samlet af Mellemøst-forskere. Resultaterne var uventede: den flersprogede basismodel mBERT, fortrænet på moderne data, overgik vores specialiserede modeller.

[This apstract has been rewritten with the help of AI based on the project's original abstract]