Enhancing Retrieval-Augmented Large Language Models with Multimodality in Conversational Recommender Systems
Authors
Schjelder, Rasmus Hougaard ; Morakran, Tim ; Munch, Mathias Pallesen
Term
4. term
Education
Publication year
2026
Submitted on
2026-06-04
Pages
21
Abstract
Conversational recommender systems help people find items like movies through chat. Many now use large language models that can both retrieve recommendations and generate responses, but most rely only on text and overlook useful visual cues such as movie posters. We introduce MMReFICR, a multimodal extension of ReFICR that adds poster-based visual signals to the Conv2Item retrieval pipeline. Movie posters are encoded with CLIP and projected into GritLM’s text embedding space, allowing text and image information to be combined directly at the vector level (numerical representations). We evaluate three fusion strategies: static linear weighting (a fixed mix), concatenation (stacking vectors and learning how to use them), and dynamic gated fusion (context-dependent weights). On the ReDial and INSPIRED datasets, adding visuals improves retrieval compared with a text-only baseline, though the best fusion strategy depends on the dataset: static weighting shows the strongest gains on ReDial, while concatenation performs best on INSPIRED, especially for broader candidate retrieval. At the same time, the quality of generated conversational responses is not degraded. Overall, visual item representations provide a helpful auxiliary signal for conversational recommendation, with trade-offs among top-ranked precision, candidate coverage, and fusion complexity. Our code is publicly available at https://github.com/mpmunch/MM-ReFICR.
Samtalebaserede anbefalingssystemer hjælper brugere med at finde fx film via chat. I dag bygger mange af disse systemer på store sprogmodeller, der både kan hente relevante anbefalinger og formulere svar. De fleste løsninger bruger dog kun tekstbeskrivelser af emner og udnytter ikke visuel information som filmplakater. Vi præsenterer MMReFICR, en multimodal udvidelse af ReFICR, der føjer plakatbaserede visuelle signaler til Conv2Item-hentningskæden. Filmplakater kodes med CLIP og projiceres ind i GritLM’s tekst-embedding-rum, så tekst- og billedrepræsentationer kan kombineres direkte som vektorer (numeriske repræsentationer). Vi undersøger tre måder at flette information: statisk lineær vægtning (en fast blanding), konkatenering (lægge vektorer sammen og lære at bruge dem), og dynamisk gated fusion (kontekstafhængige vægte). På ReDial- og INSPIRED-datasættene ser vi, at visuel information kan forbedre hentningen i forhold til en ren tekstbaseret baseline, men den bedste fusionsstrategi afhænger af datasættet: Statisk vægtning giver størst forbedringer på ReDial, mens konkatenering klarer sig bedst på INSPIRED, især når der skal hentes bredere kandidatlister. Samtidig forringes kvaliteten af de genererede samtalesvar ikke. Resultaterne viser, at visuelle vare-repræsentationer er et nyttigt ekstra signal i samtale-anbefaling, men også at der er vigtige afvejninger mellem topplaceringers præcision, dækning af kandidater og fusionskompleksitet. Koden er offentligt tilgængelig på https://github.com/mpmunch/MM-ReFICR.
[This apstract has been rewritten with the help of AI based on the project's original abstract]
Keywords
