Pointer-CNN for Visual Question Answering
Authors
Svidt, Jakob ; Jepsen, Jens Søholm
Term
4. term
Education
Publication year
2018
Submitted on
2018-06-15
Pages
28
Abstract
Visuel spørgsmålsbesvarelse (VQA) får computere til at besvare spørgsmål om billeder. Opgaven ligger i krydsfeltet mellem computer vision og naturlig sprogbehandling. Mange nyere systemer forbedrer resultaterne ved at udvikle bedre features (datarepræsentationer), tilføje opmærksomhedsmekanismer, som hjælper modellen med at fokusere på relevante dele af billeder og spørgsmål, og ved at finjustere træningsindstillinger (hyperparametre). De fleste behandler VQA som en klassifikationsopgave over et fast, på forhånd defineret svarsæt. Vi præsenterer et pointer-baseret konvolutionelt neuralt netværk (Pointer-CNN) til multiple choice i VQA, der direkte vælger en af de givne svarmuligheder frem for at bruge en global fast liste. Vores tilgang opnår state-of-the-art resultater på VQA v1.0-benchmarket og giver fornuftig ydeevne på Visual7W-datasættet. Vi analyserer også resultater på tværs af forskellige spørgekategorier i VQA v1.0 for at identificere, hvor modellen klarer sig godt, og hvor den har begrænsninger.
Visual Question Answering (VQA) asks computers to answer questions about images. It sits at the intersection of computer vision and natural language processing. Many recent systems improve performance by engineering better features (data representations), adding attention mechanisms that help models focus on relevant parts of an image or question, and tuning training settings (hyper-parameters). Most treat VQA as a classification task over a fixed, pre-defined set of answers. We introduce a pointer-based convolutional neural network (Pointer-CNN) for multiple-choice VQA that directly selects one of the provided answer options, rather than relying on a global fixed list. Our approach achieves state-of-the-art results on the VQA v1.0 benchmark and delivers reasonable performance on the Visual7W dataset. We also analyze results across different VQA v1.0 question categories to identify where the model performs well and where it falls short.
[This abstract was generated with the help of AI]
Keywords
Documents
