Use este identificador para citar ou linkar para este item:
http://www.monografias.ufop.br/handle/35400000/7653
Título: | Aplicação de deep learning na avaliação do conteúdo nutricional. |
Autor(es): | Andrade, Michele Soares de |
Orientador(es): | Luz, Eduardo José da Silva |
Membros da banca: | Terra, Daniela Costa Santos, Valéria de Carvalho Luz, Eduardo José da Silva |
Palavras-chave: | Deep learning Vision transformer - ViT InceptionV2 Estimativa nutricional JFT-300M Imagenet |
Data do documento: | 2025 |
Referência: | ANDRADE, Michele Soares de. Aplicação de deep learning na avaliação do conteúdo nutricional. 2025. 50 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2025. |
Resumo: | Este trabalho investiga o uso de modelos Vision Transformer (ViT) para estimar macronutrientes presentes em pratos de comida a partir de imagens 2D. A estimativa precisa de macronutrientes é um desafio relevante em aplicações de saúde, especialmente para pessoas com condições como diabetes mellitus tipo 1, que precisam monitorar a ingestão de nutrientes regularmente. O estudo original que serve como referência utilizou um modelo pré-treinado na base JFT-300M, uma coleção de grande escala e diversidade que não está disponível publicamente, dificultando a reprodutibilidade dos resultados. Com o objetivo de avaliar alternativas viáveis, dois modelos ViT foram treinados e avaliados utilizando as bases COYO e ImageNet. A hipótese investigada é que o modelo pré-treinado na base COYO, por ser considerada semelhante à JFT-300M, poderia alcançar resultados superiores ao modelo pré-treinado na ImageNet e mais próximos ao baseline original. Os resultados demonstram que o modelo pré-treinado na JFT-300M apresentou desempenho superior, evidenciado por menores erros médios absolutos (MAE) e percentuais (MAE%) para todas as métricas avaliadas. Por outro lado, o modelo pré-treinado na COYO apresentou os piores resultados, o que sugere que a natureza multimodal e menos curada dessa base limita a extração de características relevantes para a tarefa. O modelo pré-treinado na ImageNet apresentou desempenho intermediário, sendo mais eficaz que o COYO, mas ainda inferior ao baseline. Estes resultados reforçam a importância da curadoria e da relevância do domínio das imagens no pré-treinamento dos modelos. Este estudo contribui ao demonstrar que, embora bases de dados abertas como COYO possam ser alternativas interessantes, a sua eficácia é limitada para tarefas específicas como a estimativa de macronutrientes. Além disso, o trabalho sugere direções futuras, como a expansão da base de dados com pratos típicos brasileiros, a integração de dados 3D e o desenvolvimento de aplicações móveis para democratizar o acesso a ferramentas de análise nutricional. |
Resumo em outra língua: | This work investigates the use of Vision Transformer (ViT) models to estimate macronutrients present in food dishes from 2D images. Accurate macronutrient estimation is a relevant challenge in health applications, especially for individuals with conditions such as type 1 diabetes mellitus, who need to monitor nutrient intake regularly. The original study serving as a reference used a model pre-trained on the JFT-300M dataset, a large-scale and diverse collection that is not publicly available, making it difficult to reproduce the results. To evaluate viable alternatives, two ViT models were trained and evaluated using the COYO and ImageNet datasets. The investigated hypothesis is that the model pre-trained on the COYO dataset, considered to be similar to JFT- 300M, could achieve superior results compared to the model pre-trained on ImageNet and closer to the original baseline. The results show that the model pre-trained on JFT-300M achieved superior performance, evidenced by lower mean absolute errors (MAE) and percentage errors (MAE%) for all evaluated metrics. On the other hand, the model pre-trained on COYO showed the worst results, suggesting that the multimodal and less curated nature of this dataset limits the extraction of relevant features for the task. The model pre-trained on ImageNet achieved intermediate performance, proving to be more effective than COYO but still inferior to the baseline. These findings reinforce the importance of dataset curation and domain relevance in model pre-training. This study contributes by demonstrating that, although open datasets like COYO may be interesting alternatives, their effectiveness is limited for specific tasks such as macronutrient estimation. Additionally, the work suggests future directions, such as expanding the dataset with typical Brazilian dishes, integrating 3D data, and developing mobile applications to democratize access to nutritional analysis tools. |
URI: | http://www.monografias.ufop.br/handle/35400000/7653 |
Aparece nas coleções: | Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
MONOGRAFIA_AplicaçãoDeepLearning.pdf | 1,43 MB | Adobe PDF | Visualizar/Abrir |
Os itens na BDTCC estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.