AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


MAD-Traj: Multi-modal Attention-based Diffusion Model for Pedestrian Trajectory Prediction

Authors

; ;

Term

4. term

Education

Publication year

2023

Submitted on

Pages

27

Abstract

Denne afhandling adresserer udfordringen ved at forudsige fodgængertrajektorier i sikkerhedskritiske systemer som autonome køretøjer, sociale robotter og droner, hvor menneskelig adfærd er vanskelig at forudsige og kræver modeller, der kan overveje flere mulige fremtider. Vi præsenterer MAD-Traj, en multi-modal, attention-baseret diffusionsmodel, der kombinerer semantiske kort med en transformer-arkitektur for effektiv rum-tidslig modellering og genererer koordinatbaserede trajektorier direkte. For at gøre diffusionsprocessen praktisk i realtid anvender vi en ikke-Markovsk samplingprocedure (DDIM), som markant reducerer inferenstid, og vi undersøger yderligere accelereringsteknikker som modeldistillation. I sammenligninger med 13 state-of-the-art metoder på Stanford Drone Dataset (SDD) og ETH/UCY opnår MAD-Traj konsekvent bedste eller næstbedste resultater målt på ADE og FDE. Ved brug af DDIM kan inferenstiden reduceres med 87% med kun ca. 1% tab i nøjagtighed (ADE). Resultaterne viser, at en transformer-baseret, miljøbevidst diffusionsmodel kan være både præcis og effektiv til multifremtids forudsigelser af fodgængerbevægelser.

This thesis tackles pedestrian trajectory prediction for safety-critical systems such as autonomous vehicles, social robots, and drones, where human behavior is inherently uncertain and models must consider multiple possible futures. We introduce MAD-Traj, a multi-modal, attention-based diffusion model that fuses semantic maps with a transformer architecture for efficient spatiotemporal modeling and directly generates coordinate-based trajectories. To make diffusion practical for real-time use, we employ a non-Markovian sampling procedure (DDIM) to accelerate inference and explore additional techniques such as model distillation. In benchmarking against 13 state-of-the-art approaches on the Stanford Drone Dataset (SDD) and ETH/UCY, MAD-Traj consistently achieves best or second-best performance in terms of ADE and FDE. Using DDIM, the model reduces inference time by 87% while sacrificing only about 1% accuracy in ADE. These results indicate that a transformer-based, environment-aware diffusion approach can be both accurate and efficient for multi-future pedestrian trajectory prediction.

[This summary has been generated with the help of AI directly from the project (PDF)]