AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Eye Movement Classification Using Deep Learning

Author

Term

4. term

Publication year

2019

Submitted on

Pages

82

Abstract

Øjensporing registrerer mønstre som fikseringer (stille blik), sakkader (hurtige spring), glat forfølgelse (at følge et bevægeligt mål) og postsakkadiske oscillationer (små udsving efter en sakkade). For at træne og vurdere algoritmer, der klassificerer disse hændelser, skal datasættets annotationer afspejle kendte fysiologiske egenskaber. Dette projekt undersøger, hvordan man vælger et pålideligt datasæt, og afprøver en deep learning-model til klassifikation af øjenbevægelser. Annotationerne i GazeCom-datasættet blev analyseret ved at sammenligne fordeling af features (afledte målinger) og hændelsesvarigheder med forventede fysiologiske intervaller; de stemte ikke overens, hvilket tyder på upålidelige mærkninger til denne opgave. Den samme analyse af Lund 2013-datasættet viste god overensstemmelse med fysiologien. Med Lund 2013 blev der trænet et 1D-CNN-BLSTM-neuralt netværk—som kombinerer konvolutionslag med bidirektionel long short-term memory—til at klassificere de fire nævnte hændelsestyper. Forskellige modelindstillinger og inputfeatures blev afprøvet. En multiresolutions 1D-CNN-BLSTM klarede sig bedst, men kun lidt bedre end de øvrige arkitekturer. Den største udfordring var at skelne mellem fikseringer og glat forfølgelse, og det blev ikke løst.

Eye trackers record patterns such as fixations (steady gaze), saccades (rapid jumps), smooth pursuit (tracking a moving target), and post-saccadic oscillations (small overshoots after a saccade). To train and assess algorithms that classify these events, dataset labels should match known physiological properties. This project examines how to choose a reliable dataset and evaluates a deep learning model for eye-movement classification. The annotations in the GazeCom dataset were analyzed by comparing feature distributions and event durations with expected physiological ranges; they did not align, indicating unreliable labels for this task. The same analysis on the Lund 2013 dataset showed good agreement with physiology. Using Lund 2013, a 1D-CNN-BLSTM neural network—combining convolutional layers with bidirectional long short-term memory—was trained to classify the four event types above. Various model settings and input features were tested. A multi-resolution 1D-CNN-BLSTM performed best, but only slightly better than the other architectures. The main challenge was distinguishing fixations from smooth pursuit, and this remained unresolved.

[This abstract was generated with the help of AI]