A human pose recognition method based on Self-Supervised learning
Author
Wang, Yuheng
Term
4. term
Education
Publication year
2022
Abstract
This project examines whether self-supervised learning can improve computer vision–based human pose recognition, particularly when only limited labeled data are available. We design a pre-training task using the classical jigsaw puzzle approach, where labels are generated automatically by having a network learn the correct spatial arrangement of image patches. The Convolutional Pose Machine (CPM) serves as the backbone for both pre-training and the downstream pose estimation task; after pre-training, selected layers are transferred and kept fixed while the remaining layers are fine-tuned on labeled pose data. We test different strategies for how many and which layers to transfer and compare the self-supervised approach with purely supervised training under both small and larger training sets. The results indicate that self-supervised pre-training improves training effectiveness when the dataset is small, whereas a fully supervised approach still performs better as the dataset grows. The work is motivated by applications such as exoskeleton control and describes an architecture that reuses the same network in both stages.
Dette projekt undersøger, om selv-superviseret læring kan forbedre computer vision-baseret genkendelse af menneskelig kropsstilling, især når der er få mærkede data til rådighed. Vi designer en fortræningsopgave baseret på den klassiske puslespilsmetode (jigsaw), hvor labels genereres automatisk ved at lade et netværk lære den korrekte rumlige placering af billedfelter. Convolutional Pose Machine (CPM) anvendes som rygradsnetværk i både fortræning og den efterfølgende poseestimeringsopgave; efter fortræning overføres udvalgte lag og holdes faste, mens de resterende lag finjusteres på mærkede posedata. Vi afprøver forskellige strategier for, hvor mange og hvilke lag der overføres, og sammenligner den selv-superviserede tilgang med ren superviseret træning under både små og større træningsmængder. Resultaterne viser, at selv-superviseret fortræning kan forbedre træningseffekten, når datasættet er lille, mens en fuldt superviseret tilgang fortsat giver bedre resultater, når datasættet bliver større. Arbejdet er motiveret af anvendelser som eksoskeletkontrol og beskriver en arkitektur, hvor det samme netværk genbruges i begge trin.
[This apstract has been generated with the help of AI directly from the project full text]
