Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/1590
Título: Aprendizado em profundidade na descrição semântica de imagens.
Autor(es): Mendes, Marina de Souza
Orientador(es): Cámara Chávez, Guillermo
Membros da banca: Bianchi, Andrea Gomes Campos
Cámara Chávez, Guillermo
Ferreira, Anderson Almeida
Palavras-chave: Aprendizado profundo
Descrição de imagens
Detecção de objetos
Data do documento: 2018
Referência: MENDES, Marina de Souza. Aprendizado em profundidade na descrição semântica de imagens. 2018. 67 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
Resumo: A análise de imagens têm se tornado cada vez mais importante, pois mais aplicações vão surgindo conforme a necessidade e uma dessas aplicações é a descrição (legendagem) automática de imagens. Neste trabalho foram feitos experimentos com técnicas de aprendizado profundo para a descrição semântica de imagens e detecção de objetos. Os modelos de detecção de objetos escolhidos para avaliação são YOLO-9000, SSD300 e Mask R-CNN, com respectivos valores de mAP (o maior valor de cada método foi selecionado): 45,1%, 42,8% e 51,6%. Os modelos de descrição semântica de imagem avaliados utilizam detecção de objetos ou reconhecimento de objetos para o módulo de Visão Computacional e camada LSTM (LongShort Term Memory) para o módulo de Processamento de Linguagem Natural. Os modelos ResNet50-LSTM, NASNet-LSTM e Mask R-CNN - LSTM resultaram nos respectivos valores da métrica BLEU-1 para a base de dados Flickr8K: 54.94%, 52.04% e 55.08%. O estado da arte atual possui 77% de acurácia na BLEU-1 para a base de dados MS COCO.
Resumo em outra língua: Image analysis has become increasingly important, as more applications come up as needed and one of these applications is the automatic description (captioning) of images. In this work, we make experiments with deep learning techniques for image captioning and object detection. The object detection models chosen for evaluation are YOLO-9000, SSD300, and Mask RCNN, with respective values of mAP (the highest value of each method was selected): 45.1%, 42.8% and 51.6%. The image captioning models evaluated use object detection or object recognition as the Computational View module and LSTM (Long-Short Term Memory) layer as the Natural Language Processing module. BLEU-1 results for ResNet50-LSTM, NASNetLSTM, and Mask R-CNN-LSTM on Flickr8K database are respectively: 54.94 %, 52.04 % and 55.08 %. The current state of the art results in 77% of accuracy in BLEU-1 and MS COCO database.
URI: http://www.monografias.ufop.br/handle/35400000/1590
Licença: Autorização concedida à Biblioteca Digital de TCC’s da UFOP pelo(a) autor(a) em 20/12/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MONOGRAFIA_AprendizadoProfundidadeDescrição.pdf9,26 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons