Enhancing Person Re-Identification by Late Fusion
Author
Lejbølle, Aske Rasch
Term
4. term
Publication year
2016
Submitted on
2016-06-02
Pages
101
Abstract
This thesis addresses person re‑identification, the task of matching the same individual across multiple cameras despite changes in viewpoint, scale, lighting, and partial occlusion. To leverage the fact that different methods capture complementary visual cues, it proposes a late‑fusion system that combines high‑level features from a convolutional neural network (CNN), mid‑level features via dictionary learning, and low‑level features from local image patches (LOMO). The fusion uses both rank aggregation and score‑level combination alongside metric learning, and is evaluated on widely used benchmarks (VIPeR, PRID450S, CUHK01, CUHK03). Compared with prior state‑of‑the‑art, the approach improves rank‑1 accuracy by 15.04% on CUHK01 and 10.94% on PRID450S, and achieves performance comparable to a leading CNN on CUHK03. To reflect real‑world use, multi‑shot and cross‑dataset tests are conducted; the system gains 3.2% accuracy over individual components in multi‑shot and reaches state‑of‑the‑art in cross‑dataset with a 5.85% increase in rank‑1. Late fusion adds at most 2.1% processing overhead, supporting its practical viability.
Denne afhandling undersøger person‑re‑identifikation, dvs. at matche den samme person på tværs af flere kameraer, trods ændringer i synsvinkel, skalering, belysning og til dels okklusion. For at udnytte, at forskellige metoder fanger forskellige billedkendetegn, foreslås et system baseret på sen fusion, som kombinerer komplementære komponenter: høj‑niveau træk fra et konvolutionsneuralt netværk (CNN), mellem‑niveau træk via ordbogs‑ (dictionary) læring og lav‑niveau træk fra lokale billedpatches (LOMO). Systemet anvender både rang‑aggregering og score‑baseret fusion samt metriske læringsmetoder, og det evalueres på udbredte benchmarks (VIPeR, PRID450S, CUHK01 og CUHK03). Sammenlignet med tidligere state‑of‑the‑art forbedrer den foreslåede tilgang rank‑1 nøjagtigheden med 15,04% på CUHK01 og 10,94% på PRID450S og opnår ydelser på niveau med et førende CNN på CUHK03. For at afspejle realistiske forhold gennemføres multi‑shot og cross‑dataset tests, hvor systemet i multi‑shot øger nøjagtigheden med 3,2% i forhold til de enkelte delsystemer og opnår state‑of‑the‑art i cross‑dataset med en rank‑1 forbedring på 5,85%. Den sene fusion øger den samlede behandlingstid med højst 2,1%, hvilket gør metoden praktisk anvendelig.
[This apstract has been generated with the help of AI directly from the project full text]
