Use este identificador para citar ou linkar para este item:
http://www.monografias.ufop.br/handle/35400000/5575
Título: | Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho. |
Autor(es): | Abreu, Carlos Henrique Pereira |
Orientador(es): | Medeiros, Talles Henrique de |
Membros da banca: | Medeiros, Talles Henrique de Brito, Darlan Nunes de Ribeiro, Eduardo da Silva |
Palavras-chave: | Arquitetura Transformer Visão computacional Devito framework Joey Python |
Data do documento: | 2023 |
Referência: | ABREU, Carlos Henrique Pereira. Implementação da arquitetura Vision Transformer por meio de um framework de alto desempenho. 2023. 53 f. Monografia (Graduação em Sistemas de Informação) - Instituto de Ciências Exatas e Aplicadas, Universidade Federal de Ouro Preto, João Monlevade, 2023. |
Resumo: | Os Transformers atualmente representam uma das classes mais poderosas de modelos de aprendizado de máquina por sua versatilidade e alto poder de processamento de dados sequenciais de forma paralela, sem a necessidade de processar uma entrada sequencial de dados. Desde o seu surgimento em 2017, a arquitetura Transformer tem sido amplamente utilizada em muitos problemas de processamento de linguagem natural (PLN), incluindo tradução automática, análise de sentimentos, geração e classificação de textos, e tem sido amplamente considerada como um dos modelos mais poderosos disponíveis. Neste trabalho, exploramos a construção da rede Transformer aplicada a problemas de visão computacional, utilizando o framework Joey. Para a implementação, novas camadas e funções auxiliares foram incorporadas ao framework. Os resultados produzidos pela rede, mesmo que inferiores em comparação com o framework PyTorch, representam uma evolução da gama de possíveis aplicações para o Joey. |
Resumo em outra língua: | Transformers currently represent one of the most powerful classes of machine learning models due to their versatility and high processing power for sequential data in parallel, without the need to process input data sequentially. Since their emergence in 2017, the Transformer architecture has been widely used in many natural language processing (NLP) tasks, including machine translation, sentiment analysis, text generation, and text classification, and has been widely considered as one of the most powerful models available. In this work, we explore the construction of the Transformer network applied to computer vision problems using the Joey framework. For implementation, new layers and auxiliary functions were incorporated into the framework. The results produced by the network, although inferior compared to the PyTorch framework, represent an evolution of the range of possible applications for Joey. |
URI: | http://www.monografias.ufop.br/handle/35400000/5575 |
Aparece nas coleções: | Sistema de Informação - JMV |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
MONOGRAFIA_ImplementacaoArquiteturaVision.pdf | 2,36 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciado sob uma Licença Creative Commons