Klassifikation af Årsag Til Utilsigtede Hændelser: -baseret på Statistisk Natural Langurage Processing
Oversat titel
Classifying the Reason for Adverse Events: -based on Statistical Natural Language Processing
Forfattere
Hansen, Marie Juul ; Rasmussen, Nana Østergaard
Semester
4. semester
Uddannelse
Udgivelsesår
2008
Antal sider
119
Abstract
I 2007 blev der i Danmark indrapporteret 23.521 utilsigtede hændelser. Formålet med rapporteringen er at udvikle retningslinjer, der kan forebygge sådanne hændelser og potentielt redde liv. Fordi rapporterne er skrevet som fritekst, skal en risikomanager normalt læse dem for at finde årsagerne. Dette projekt undersøger, om årsager kan klassificeres automatisk med statistisk natural language processing (NLP), altså maskinel analyse af tekst. Vi udviklede et proof-of-concept med en brugergrænseflade og en klassifikationsmodel. Modellen blev trænet og testet på 132 rapporter, der alle indeholder søgeordet "EPM", og har til formål at afgøre, om "EPM" er årsag til hændelsen eller ej. Modellen kombinerer forudgående ekspertviden med statistisk viden fra data. Klassifikationen gav et F-mål på 0,946 for rapporter klassificeret som "ikke årsag" og 0,667 for rapporter klassificeret som "årsag". F-målet er et samlet mål for nøjagtighed, der balancerer præcision og genkaldelse. Resultaterne kan forbedres ved at træne på flere rapporter. Vi konkluderer, at statistisk NLP kan bruges til at klassificere utilsigtede hændelser, når der integreres forudgående ekspertviden om det konkrete søgeord.
In 2007, 23,521 unintended incidents were reported in Denmark. The goal of reporting is to develop guidelines that prevent such incidents and may save lives. Because the reports are written as free text, a risk manager must normally read them to identify causes. This project investigates whether causes can be classified automatically using statistical natural language processing (NLP), i.e., machine analysis of text. We built a proof-of-concept system with a user interface and a classification model. The model was trained and tested on 132 reports that all include the keyword "EPM" and aims to decide whether "EPM" was the cause of the incident or not. The model combines prior expert knowledge with statistical information from the data. The classification achieved an F-measure of 0.946 for reports classified as "not cause" and 0.667 for reports classified as "cause". The F-measure is a combined accuracy measure that balances precision and recall. These results can be improved by training on more reports. We conclude that statistical NLP can be used to classify unintended incidents when prior expert knowledge related to the specific keyword is integrated.
[Dette resumé er genereret ved hjælp af AI]
