Please use this identifier to cite or link to this item: http://www.monografias.ufop.br/handle/35400000/8413
Title: Uma revisão narrativa sobre modelos de IA generativa com aplicação para o problema de visual paragraph generation.
Authors: Oliveira, Tatiane Vitória de
metadata.dc.contributor.advisor: Sousa, Alexandre Magno de
metadata.dc.contributor.referee: Ribeiro, Eduardo da Silva
Cardoso, Elton Máximo
Sousa, Alexandre Magno de
Keywords: Aprendizado do computador
Processamento de imagens
Processamento de linguagem natural - computação
Redes neurais - computação
Visão por computador
Issue Date: 2025
Citation: OLIVEIRA, Tatiane Vitória de. Uma revisão narrativa sobre modelos de IA generativa com aplicação para o problema de visual paragraph generation. 2025. 73 f. Monografia (Graduação em Sistemas de Informação) – Instituto de Ciências Exatas e Aplicadas, Universidade Federal de Ouro Preto, João Monlevade, 2025.
Abstract: Este trabalho investiga a aplicação de modelos de Inteligência Artificial Generativa no problema de Visual Paragraph Generation, com ênfase na arquitetura Transformer, que se consolidou como a abordagem mais utilizada em razão de sua capacidade de lidar com dependências de longo alcance, escalabilidade e paralelização. O objetivo central foi analisar os principais modelos descritos na literatura e demonstrar, por meio de experimentos, a aplicação prática de um modelo pré-treinado baseado em Transformer para este contexto. A metodologia foi desenvolvida em cinco etapas complementares. Primeiramente, realizouse uma revisão da literatura sobre os fundamentos de Inteligência Artificial Generativa, abordando sua evolução, aplicações e implicações. Em seguida, foi estudada a arquitetura Transformer e apresentado como funciona o mecanismo de atenção e alguns modelos de referência. Na terceira etapa, analisaram-se os trabalhos relacionados ao problema de Visual Paragraph Generation, identificando avanços, pontos fortes e limitações. A quarta etapa consistiu na seleção do Vision Transformer como modelo pré-treinado para experimentação, justificando sua escolha pela relevância e viabilidade de aplicação. Por fim, conduziram-se experimentos para exemplificar o uso do modelo selecionado no problema, com análise quantitativa dos resultados. Os experimentos demonstraram desempenho estável em termos de acurácia, mas apresentaram limitações relevantes em métricas semânticas, tais como Bilingual Evaluation Understudy, revelando a dificuldade do modelo em produzir descrições ricas e diversificadas. Além disso, restrições técnicas, como a alta demanda de GPU e memória, limitaram a exploração de ajustes mais sofisticados e treinos de maior escala. Conclui-se que a arquitetura Transformer representa a abordagem mais promissora para Visual Paragraph Generation, justificando seu amplo uso em aplicações de Inteligência Artificial Generativa. Contudo, também se evidenciam desafios práticos que precisam ser superados para ampliar a qualidade e a aplicabilidade dessas soluções. O estudo contribui de forma exploratória ao consolidar a base teórica, discutir trabalhos relacionados e demonstrar um exemplo prático, abrindo caminhos para pesquisas futuras.
metadata.dc.description.abstracten: This work investigated the application of Generative Artificial Intelligence models to the problem of Visual Paragraph Generation, focusing on the Transformer architecture, which has become the most widely used approach due to its ability to handle wide-ranging dependencies, as well as its scalability and parallelization. The main objective was to analyze the main models described in the literature and to demonstrate through experiments the practical application of a pre-trained Transformer-based model in this context. The methodology was developed in five complementary steps. First, a literature review was conducted on the foundations of Generative Artificial Intelligence, covering its development, applications and implications. Secondly, the Transformer architecture was examined, highlighting the operation of the attention mechanism and presenting reference models. The third phase analyzed related work on the problem of visual paragraph generation and identified advances, strengths and limitations. In the fourth phase, the Vision Transformer was selected as a pre-trained model for experimentation, which was justified by its relevance and applicability. Finally, experiments were conducted to illustrate the application of the chosen model to the problem, with a quantitative analysis of the results. The experiments showed stable performance in terms of accuracy, but relevant limitations on semantic metrics such as the Bilingual Evaluation Understudy, highlighting the difficulty of the model in producing rich and diversified descriptions. In addition, technical limitations, such as high GPU and memory requirements, restricted the exploration of more sophisticated adaptations and extensive training. We conclude that the Transformer architecture is the most promising approach for the Visual Paragraph Generation, justifying its wide use in Generative Artificial Intelligence applications. However, practical challenges still need to be overcome to improve the quality and applicability of such solutions. This study makes an exploratory contribution by consolidating the theoretical foundations, discussing related work and demonstrating a practical example, thus opening avenues for future research.
URI: http://www.monografias.ufop.br/handle/35400000/8413
metadata.dc.rights.license: Este trabalho está sob uma licença Creative Commons BY-NC-ND 4.0 (https://creativecommons.org/licenses/by-nc-nd/4.0/?ref=chooser-v1).
Appears in Collections:Sistema de Informação - JMV

Files in This Item:
File Description SizeFormat 
MONOGRAFIA_RevisãoNarrativaModelos.pdf3,8 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.