Re-identification Using the Lower Body
Authors
Vestergaard, Mathias Zacho ; Borchert, Lasse Vork
Term
4. term
Publication year
2017
Pages
69
Abstract
This report investigates person re-identification using only the lower body and evaluates whether temporal information from video sequences can improve accuracy. Neural networks are applied to both single images and sequences across public datasets. For single images, a Keras-implemented ResNet-50 achieves the best performance on Market-1501 with 76.07% rank-1 (versus state-of-the-art 91.75%). For video, the best result on MARS is 80.25% rank-1 using a ResNet-50-based approach that aggregates predictions across frames, while PRID2011 benefits from a different architecture with a few convolutional layers, a recurrent unit, and optical flow as extra input channels, reaching 70.5% rank-1 (versus 77.3%). Attempts to extend ResNet-50 with an RNN encountered issues with TimeDistributed and batch normalization and did not yield higher accuracy. The networks are also evaluated using lower versus upper body crops to compare descriptive power. Tests show no consistent difference between upper and lower body, and that the accuracy drop from using only part of the body is substantially smaller for sequences than for single images, both when leveraging temporal information and when averaging multiple frames.
Denne rapport undersøger person-reidentifikation med fokus på kun at bruge den nedre del af kroppen og vurderer, om tidslig information fra videosekvenser kan forbedre nøjagtigheden. Med neurale netværk testes både enkeltbilleder og sekvenser på offentlige datasæt. For enkeltbilleder opnår en Keras-implementeret ResNet-50 den bedste præstation på Market-1501 med 76,07 % rank-1 (mod state-of-the-art 91,75 %). For video opnås på MARS 80,25 % rank-1 med en ResNet-50-baseret metode, der aggregerer over flere billeder, mens PRID2011 kræver en anden arkitektur med få konvolutionslag, en rekurrent enhed og optisk flow som ekstra kanaler, hvilket giver 70,5 % rank-1 (mod 77,3 %). Forsøg på at kombinere ResNet-50 med en RNN stødte på udfordringer med TimeDistributed og batch-normalisering og gav ikke bedre præcision. Netværkene er desuden evalueret med både nedre og øvre kropsudsnit for at sammenligne beskrivelseskraften. Testene viser ingen konsekvent forskel mellem øvre og nedre kropsdel, og at præcisionsfaldet ved kun at bruge en kropsdel er markant mindre for sekvenser end for enkeltbilleder, både når der udnyttes tidslig information og når gennemsnit over flere billeder anvendes.
[This apstract has been generated with the help of AI directly from the project full text]
