AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Rule Extraction from Pharmaceutical Documents for Automated Consistency Checks on Clinical Trial Databases

Authors

;

Term

4. semester

Publication year

2024

Submitted on

Pages

26

Abstract

For at få nye lægemidler på markedet skal virksomheder først have kliniske studier godkendt. Det kræver, at man følger lange, komplekse regelsæt i regulatoriske dokumenter - en manuel opgave, der er dyr og tidskrævende. Automatiseret konsistenskontrol (ACC) kan hjælpe ved at lade computere kontrollere, om reglerne overholdes. Fordi dokumenterne er store og skrevet i naturligt sprog, er ACC dog vanskelig at bygge. Fremskridt inden for naturlig sprogbehandling (NLP) gør det mere realistisk. I samarbejde med Novo Nordisk undersøger specialet ACC i lægemiddelområdet og opdeler problemet i flere NLP-delopgaver. Vi præsenterer en pipeline, der (1) finder sætninger i regulatoriske dokumenter, som indeholder regler, (2) bestemmer hvilken type kontrol hver regel indebærer (operatører), og (3) udtrækker centrale elementer - som kolonnenavne og værdier - så reglerne kan omsættes til CDISC Core-regler (et standardiseret format). Vi viser også, hvordan man kan opbygge et domænespecifikt datasæt til at træne maskinlæringsmodeller til hvert trin. Med dette datasæt træner vi flere modeller. Til at identificere regelsætninger opnår en SVM-klassifikator med TF-IDF-repræsentationer (klassisk maskinlæring og en enkel tekstrepræsentation) en F2-score på 0,79 og overgår både simple baselines og fintunede BERT-modeller. Til at tildele operatører til de klassificerede regler opnår en MLkNN-klassifikator, også med TF-IDF, en F2-micro på 0,71. Til sidst kan en fintunet LegalBERT-model bruges til at udtrække elementer som kolonner og værdier og opnår en F2-score på 0,69. Ved at kombinere outputtet fra de tre modeller kan vi generere simple, maskinlæsbare regler, som kan bruges til at implementere ACC i databaser for kliniske studier.

Bringing new medicines to market requires getting clinical studies approved. That means following long, complex regulatory documents - work that is costly and time-consuming when done by hand. Automated consistency checking (ACC) can help by letting computers check whether rules are followed. Because the documents are large and written in natural language, building ACC systems is challenging. Recent advances in natural language processing (NLP) make it more feasible. In collaboration with Novo Nordisk, this thesis studies ACC in the pharmaceutical domain and breaks the problem into several NLP sub-tasks. We present a pipeline that (1) finds sentences in regulatory documents that contain rules, (2) determines the kind of check each rule represents (operators), and (3) extracts key elements - such as column names and values - so the rules can be converted into CDISC Core rules (a standardized format). We also show how to build an in-domain dataset to train machine-learning models for each step. Using this dataset, we train multiple models. For rule identification, an SVM classifier with TF-IDF representations (a classical machine-learning method and a simple way to represent text) achieves an F2 score of 0.79, outperforming simple baselines and fine-tuned BERT models. To assign operators to the classified rules, an MLkNN classifier, also using TF-IDF, achieves an F2-micro of 0.71. Finally, to extract elements such as columns and values, a fine-tuned LegalBERT model achieves an F2 score of 0.69. Combining the outputs of these three models, we show that it is possible to generate simple, machine-readable rules that can be used to implement ACC on clinical trial study databases.

[This summary has been rewritten with the help of AI based on the project's original abstract]