Designing a Zero-UI Application Utilising AI for Gesture-Based Presentation Control
Authors
Beck, Lasse ; Kristensen, Casper Bisgaard
Term
4. term
Education
Publication year
2024
Abstract
Denne afhandling undersøger, hvordan man designer og udvikler en Zero-UI applikation til gestusbaseret styring af præsentationer ved hjælp af open source AI-teknologi. Med udgangspunkt i behovet for berøringsfri interaktion efter COVID-19 adresserer arbejdet tre spørgsmål: hvordan Mediapipe kan udnyttes til et bæredygtigt artefakt, hvilke metoder der sikrer brugervenlighed og passende gestus, samt hvilke softwarekvalitetsprincipper der bør indarbejdes. Projektet følger Design Science Research Methodology og anvender en fokusgruppe med fem eksperter til at afdække funktionelle behov, hvorefter krav specificeres med reference til Sommerville og ISO 25010:2011 (Quality in Use og Product Quality). Artefaktet bygger på en browserbaseret klient–server-arkitektur og kræver ingen ekstra hardwareperiferi, hvilket fremmer portabilitet og bæredygtighed. Til genkendelse anvendes en Convolutional Neural Network via transfer learning i MediaPipe til hånd-positurgenkendelse kombineret med en finit tilstandsautomat til gestusgenkendelse. Evalueringen omfatter ydeevnetest på 1198 billeder på tre hardwareopsætninger (gennemsnitlig genkendelsestid 10,99–62,87 ms svarende til 15,91–90,99 FPS) og klassifikationsresultater (nøjagtighed 99,68 %, recall 98,00 %, precision 98,08 % og F1 98,04 %). Brugervenligheden vurderes efter ISO 25010:2011’s Quality in Use-kriterier (effektivitet, effektivitet/ressourceforbrug og tilfredshed) gennem opgaveløsningstid, opgavefuldførelse, et tilpasset CSUQ-spørgeskema og semistrukturerede interviews. Resultaterne indikerer, at en softwarebaseret tilgang kan levere et anvendeligt, effektivt og bæredygtigt artefakt til berøringsfri præsentationsstyring.
This thesis explores the design and development of a Zero-UI application for gesture-based presentation control using open-source AI. Motivated by the post-COVID need for touchless interaction, it addresses three questions: how to leverage Mediapipe to build a sustainable artifact, which methods support a user-friendly set of gestures and functionality, and which software quality principles should guide development. Following the Design Science Research Methodology, the work uses a focus group of five experts to identify functionality, then specifies requirements grounded in Sommerville and ISO 25010:2011 (Quality in Use and Product Quality). The artifact employs a browser-based client–server architecture that requires no additional peripherals, supporting portability and sustainability. For recognition, a transfer-learning CNN in MediaPipe detects hand poses and is combined with a finite state machine for gesture recognition. Evaluation includes performance tests on 1,198 images across three hardware setups (average recognition time 10.99–62.87 ms, corresponding to 15.91–90.99 FPS) and classification metrics (accuracy 99.68%, recall 98.00%, precision 98.08%, F1 98.04%). Usability is assessed against ISO 25010:2011 Quality in Use criteria (effectiveness, efficiency, satisfaction) via task completion, task time, a modified CSUQ questionnaire, and semi-structured interviews. The results indicate that a software-based approach can deliver a usable, efficient, and sustainable artifact for touchless presentation control.
[This summary has been generated with the help of AI directly from the project (PDF)]
Documents
