Por favor, use este identificador para citar o enlazar este ítem: http://www.monografias.ufop.br/handle/35400000/1590
Título : Aprendizado em profundidade na descrição semântica de imagens.
Autor : Mendes, Marina de Souza
metadata.dc.contributor.advisor: Cámara Chávez, Guillermo
metadata.dc.contributor.referee: Bianchi, Andrea Gomes Campos
Cámara Chávez, Guillermo
Ferreira, Anderson Almeida
Palabras clave : Aprendizado profundo
Descrição de imagens
Detecção de objetos
Fecha de publicación : 2018
Citación : MENDES, Marina de Souza. Aprendizado em profundidade na descrição semântica de imagens. 2018. 67 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
Resumen : A análise de imagens têm se tornado cada vez mais importante, pois mais aplicações vão surgindo conforme a necessidade e uma dessas aplicações é a descrição (legendagem) automática de imagens. Neste trabalho foram feitos experimentos com técnicas de aprendizado profundo para a descrição semântica de imagens e detecção de objetos. Os modelos de detecção de objetos escolhidos para avaliação são YOLO-9000, SSD300 e Mask R-CNN, com respectivos valores de mAP (o maior valor de cada método foi selecionado): 45,1%, 42,8% e 51,6%. Os modelos de descrição semântica de imagem avaliados utilizam detecção de objetos ou reconhecimento de objetos para o módulo de Visão Computacional e camada LSTM (LongShort Term Memory) para o módulo de Processamento de Linguagem Natural. Os modelos ResNet50-LSTM, NASNet-LSTM e Mask R-CNN - LSTM resultaram nos respectivos valores da métrica BLEU-1 para a base de dados Flickr8K: 54.94%, 52.04% e 55.08%. O estado da arte atual possui 77% de acurácia na BLEU-1 para a base de dados MS COCO.
metadata.dc.description.abstracten: Image analysis has become increasingly important, as more applications come up as needed and one of these applications is the automatic description (captioning) of images. In this work, we make experiments with deep learning techniques for image captioning and object detection. The object detection models chosen for evaluation are YOLO-9000, SSD300, and Mask RCNN, with respective values of mAP (the highest value of each method was selected): 45.1%, 42.8% and 51.6%. The image captioning models evaluated use object detection or object recognition as the Computational View module and LSTM (Long-Short Term Memory) layer as the Natural Language Processing module. BLEU-1 results for ResNet50-LSTM, NASNetLSTM, and Mask R-CNN-LSTM on Flickr8K database are respectively: 54.94 %, 52.04 % and 55.08 %. The current state of the art results in 77% of accuracy in BLEU-1 and MS COCO database.
URI : http://www.monografias.ufop.br/handle/35400000/1590
metadata.dc.rights.license: Autorização concedida à Biblioteca Digital de TCC’s da UFOP pelo(a) autor(a) em 20/12/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.
Aparece en las colecciones: Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
MONOGRAFIA_AprendizadoProfundidadeDescrição.pdf9,26 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons