Deep Learning Approaches to Art Style Recognition in Digital Images
Authors
Johnsen, Rasmus Hove ; Gradecak, Andrea
Term
4. term
Education
Publication year
2017
Submitted on
2017-06-07
Pages
81
Abstract
Konvolutionelle neurale netværk (CNN'er) er førende inden for billedgenkendelse, men er sjældent brugt effektivt til at genkende kunststilarter i fine art-malerier. Vi byggede og forbedrede trinvist en CNN målrettet denne opgave og sammenlignede den med en stærk baseline. Vores netværk har 7 blokke; hver blok indeholder et konvolutionslag med rektificerede lineære enheder (ReLU), der lærer visuelle mønstre, samt et max-pooling-lag, der reducerer billedets størrelse og fremhæver de vigtigste træk. Det første konvolutionslag har 32 feature maps (kanaler, der registrerer mønstre), og antallet fordobles efter hver max-pooling. Til sidst har netværket et lille, fuldt forbundet (dense) lag med 8 neuroner og et softmax-output, der omdanner resultater til sandsynligheder for hver stil. Fordi datasættet var relativt lille, brugte vi glidende vindue-beskæring til at udvide det, med op til 10 udskæringer pr. originalt billede. Som baseline anvendte vi VGG16 kombineret med en Support Vector Machine (SVM) som klassifikator. Ved test på tre par af stilarter opnåede vi den højeste nøjagtighed på 95,3% for at skelne Color Field Painting fra Magic Realism. Baseline-modellen nåede imidlertid 97,8%. Vores konklusion er, at uden aggressiv dataaugmentation er det ikke bedre at træne en CNN udelukkende på fine art-malerier for stilgenkendelse end at bruge en prætrænet CNN og en SVM-klassifikator.
Convolutional Neural Networks (CNNs) are leading models for image recognition, but they have rarely been applied effectively to recognizing artistic styles in fine art paintings. We built and iteratively refined a CNN tailored to this task and compared it to a strong baseline. Our network has 7 blocks; each block includes a convolutional layer with rectified linear units (ReLU) to learn visual patterns and a max-pooling layer to reduce image size while keeping key features. The first convolutional layer has 32 feature maps (channels that detect patterns), and this number doubles after each max-pooling step. The network ends with a small fully connected (dense) layer with 8 neurons and a softmax output that turns results into style probabilities. Because the dataset was relatively small, we used a sliding-window cropping technique to expand it, taking up to 10 crops from each original image. As a baseline, we used the VGG16 network combined with a Support Vector Machine (SVM) classifier. In tests on three pairs of styles, our highest accuracy was 95.3% for distinguishing Color Field Painting from Magic Realism, while the baseline reached 97.8%. We conclude that without aggressive data augmentation, training a CNN solely on fine art paintings for style recognition does not outperform using a pretrained CNN with an SVM classifier.
[This abstract was generated with the help of AI]
Keywords
Documents
