AAU Student Projects - visit Aalborg University's student projects portal
A professional bachelor's project from Aalborg University
Book cover


Phonetic transcription: Automatic transcription of vowels to IPA in real time

Translated title

Fonetisk transskribering: Automatisk transskribering af vokaler til IPA i realtid

Author

Term

7. semester

Education

Publication year

2022

Submitted on

Pages

38

Abstract

This thesis investigates whether vowel sounds in speech can be detected and identified automatically in real time as a step toward full real-time phonetic transcription. It first reviews how humans produce speech and what features appear in the acoustic signal. It also explains the basic signal-processing tools used, including zero-crossing rate (how often the waveform crosses zero) and linear predictive coding (LPC, a way to model the spectral shape of speech). Based on this background, an algorithm was developed to locate vowel segments and estimate which vowel was spoken, then implemented and tested in MATLAB. The results did not meet the requirements defined in the report. Improving vowel detection while keeping real-time operation may be difficult, but the vowel identification component had an obvious flaw that may be solved with further development.

Dette speciale undersøger, om vokallyde i tale kan opdages og identificeres automatisk i realtid som et skridt mod fuld fonetisk transskription i realtid. Først gennemgås, hvordan mennesker producerer tale, og hvilke træk der kan ses i det akustiske signal. Der forklares også simple signalbehandlingsværktøjer, bl.a. zero-crossing rate (hvor ofte bølgeformen krydser nul) og linear predictive coding, LPC (en måde at modellere talens spektrale form). På dette grundlag blev der udviklet en algoritme til at finde vokalsegmenter og vurdere, hvilken vokal der blev sagt. Algoritmen blev implementeret og testet i MATLAB. Resultaterne levede ikke op til de krav, der var defineret i rapporten. Det kan være vanskeligt at gøre vokaldetektion bedre og samtidig køre i realtid, men selve vokalidentifikationen havde en tydelig fejl, som muligvis kan løses med videre udvikling.

[This apstract has been rewritten with the help of AI based on the project's original abstract]