Multi-modal Sentiment Analysis
Author
Moroder, Emil Dalgaard
Term
4. term
Education
Publication year
2024
Submitted on
2024-06-10
Pages
9
Abstract
This thesis investigates multi-modal sentiment analysis that combines text and images to predict emotional tone. The core question is how to efficiently learn a shared, compact representation that captures complementary information from both modalities to improve classification. Two methods are proposed: an autoencoder-based approach with modality-specific encoders and decoders trained with both reconstruction and classification objectives, and an attention-based approach designed to integrate text and images into a joint latent space. In the pipeline, text is cleaned and embedded using a pre-trained BERT model, images are normalized and encoded with a CNN-based encoder, and the resulting representations are fused and classified. The methods are evaluated on the MVSA (tweets) and a meme dataset and compared to uni-modal baselines and strong image–text models such as VisualBERT and CLIP. Results indicate competitive performance but also widespread overfitting across models, likely due to noisy, low-quality data. These findings highlight the need for higher-quality datasets and advanced noise reduction, and motivate future work on hybrid solutions that combine autoencoder and attention mechanisms with more sophisticated fusion strategies.
Denne afhandling undersøger multi-modal sentimentanalyse, hvor tekst og billeder kombineres for at forudsige følelsesmæssige holdninger. Hovedspørgsmålet er, hvordan man effektivt kan lære en fælles, kompakt repræsentation, der udnytter information fra begge modaliteter for at forbedre klassifikationen. Der foreslås to metoder: en autoencoder-baseret tilgang med modalspecifikke encodere og decodere trænet med både rekonstruktions- og klassifikationsmål, samt en opmærksomhedsbaseret tilgang designet til at integrere tekst og billeder i et delt latent rum. I den anvendte pipeline renses teksten og embeddes med en fortrænet BERT-model, billeder normaliseres og kodes med et CNN-baseret encodertrin, hvorefter modalitetsrepræsentationer fusioneres og klassificeres. Metoderne evalueres på MVSA (tweets) og et meme-datasæt og sammenlignes med uni-modale baselinjer og stærke billed-tekstmodeller som VisualBERT og CLIP. Resultaterne viser en konkurrencedygtig ydeevne, men også en generel tendens til overfitting på tværs af modeller, sandsynligvis på grund af støjfyldte, lavkvalitetsdata. Arbejdet peger derfor på behovet for bedre datasæt og mere avancerede støjreduktionsteknikker og skitserer fremtidigt arbejde med hybride løsninger, der kombinerer autoencoder- og opmærksomhedsmetoder med mere sofistikerede fusionsstrategier.
[This apstract has been generated with the help of AI directly from the project full text]
