AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Speaker Attention for Video Conferencing using Multiple Visual Cues

Authors

;

Term

4. term

Publication year

2001

Abstract

Denne afhandling undersøger, hvordan man kan bygge en funktion i et videokonferencesystem, der registrerer, når en deltager rækker sin højre hånd i vejret for at få opmærksomhed. Vi udvikler og implementerer et prototype­system og optager en række videoer for at kunne afprøve metoderne. For at begrænse søgeområdet efter håndsoprækninger finder og følger systemet ansigter. Ansigter findes ved at opdage hudfarver i billederne med enten opslagstabeller (LUT’er) eller Gaussiske farvemodeller, og vi undersøger også metoder, der kan tilpasse sig ændringer i belysningens farve. En liste over mulige ansigter dannes og hver kandidat kontrolleres ud fra størrelse, kompakthed (solidity), lighed med en enkel næse–øjne‑skabelon og en elliptisk (oval) form. På den baggrund opdateres ansigtstrackere, og nye startes. Vi afprøver forskellige sporingsmetoder, og en kombination af Mean Shift‑algoritmen (en metode der følger det mest sandsynlige område), ellipse­tilpasning og et Kalman‑filter (der forudsiger bevægelse) viser sig velegnet. Med de sporede ansigter kan systemet afgrænse, hvor der skal søges efter håndsoprækninger. Til at opdage håndsoprækninger bruges akkumulerede differensbilleder (ADP’er), som opsummerer bevægelse mellem billeder; en hånd, der løftes, efterlader et lodret spor i ADP’erne og kan derfor skelnes fra andre hudfarvede objekter, der passerer i for‑ eller baggrunden. Der gennemføres forsøg for at finde den bedste kombination af metoder og vurdere, hvordan systemet klarer sig ved f.eks. ændret belysning, okklusion og bevægelse i baggrunden. Afhandlingen afslutter med forslag til fremtidigt arbejde og en opsummering af resultaterne.

This thesis explores how to build a video conferencing feature that recognizes when a participant raises their right hand to get attention. The authors design and implement a prototype system and record video clips to test the methods. To narrow the search for hand raises, the system first detects and tracks faces. Faces are found by detecting skin colors using either lookup tables (LUTs) or Gaussian color models, and the study also examines ways to adapt to changes in lighting color. A list of face candidates is created and each one is verified by checking size, solidity (compactness), similarity to a simple nose–eyes template, and an elliptical (oval) shape. Face trackers are then updated and new ones started from this list. Several tracking approaches are evaluated, and a combination of the Mean Shift algorithm (which follows the most likely region), ellipse fitting, and a Kalman filter (which predicts motion) proves suitable. With faces tracked, the system defines where to search for hand raises. Detection uses accumulated difference pictures (ADPs), which summarize motion between frames; a raised hand leaves a vertical streak in the ADPs, making it distinguishable from other skin‑colored objects moving in the foreground or background. Experiments identify the best combination of methods and assess robustness to lighting changes, occlusion, and background movement. The thesis ends with suggestions for future work and a summary of the findings.

[This abstract was generated with the help of AI]