Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho.

Abreu, Carlos Henrique Pereira

Por favor, use este identificador para citar o enlazar este ítem: http://www.monografias.ufop.br/handle/35400000/5575

Título :	Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho.
Autor :	Abreu, Carlos Henrique Pereira
metadata.dc.contributor.advisor:	Medeiros, Talles Henrique de
metadata.dc.contributor.referee:	Medeiros, Talles Henrique de Brito, Darlan Nunes de Ribeiro, Eduardo da Silva
Palabras clave :	Arquitetura Transformer Visão computacional Devito framework Joey Python
Fecha de publicación :	2023
Citación :	ABREU, Carlos Henrique Pereira. Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho. 2023. 53 f. Monografia (Graduação em Sistemas de Informação) - Instituto de Ciências Exatas e Aplicadas, Universidade Federal de Ouro Preto, João Monlevade, 2023.
Resumen :	Os Transformers atualmente representam uma das classes mais poderosas de modelos de aprendizado de máquina por sua versatilidade e alto poder de processamento de dados sequenciais de forma paralela, sem a necessidade de processar uma entrada sequencial de dados. Desde o seu surgimento em 2017, a arquitetura Transformer tem sido amplamente utilizada em muitos problemas de processamento de linguagem natural (PLN), incluindo tradução automática, análise de sentimentos, geração e classificação de textos, e tem sido amplamente considerada como um dos modelos mais poderosos disponíveis. Neste trabalho, exploramos a construção da rede Transformer aplicada a problemas de visão computacional, utilizando o framework Joey. Para a implementação, novas camadas e funções auxiliares foram incorporadas ao framework. Os resultados produzidos pela rede, mesmo que inferiores em comparação com o framework PyTorch, representam uma evolução da gama de possíveis aplicações para o Joey.
metadata.dc.description.abstracten:	Transformers currently represent one of the most powerful classes of machine learning models due to their versatility and high processing power for sequential data in parallel, without the need to process input data sequentially. Since their emergence in 2017, the Transformer architecture has been widely used in many natural language processing (NLP) tasks, including machine translation, sentiment analysis, text generation, and text classification, and has been widely considered as one of the most powerful models available. In this work, we explore the construction of the Transformer network applied to computer vision problems using the Joey framework. For implementation, new layers and auxiliary functions were incorporated into the framework. The results produced by the network, although inferior compared to the PyTorch framework, represent an evolution of the range of possible applications for Joey.
URI :	http://www.monografias.ufop.br/handle/35400000/5575
Aparece en las colecciones:	Sistema de Informação - JMV

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
MONOGRAFIA_ImplementacaoArquiteturaVision.pdf		2,36 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons