Short-term early action prediction for human-robot collaboration : a deep learning attention-based approach.

Zenóbio, João Gabriel Fernandes

Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/7648

Título:	Short-term early action prediction for human-robot collaboration : a deep learning attention-based approach.
Título(s) alternativo(s):	Previsão antecipada de ações curtas para a colaboração entre humanos e robôs : uma abordagem baseada em atenção e aprendizado profundo.
Autor(es):	Zenóbio, João Gabriel Fernandes
Orientador(es):	Gertrudes, Jadson Castro Hossain, Sakif
Membros da banca:	Gertrudes, Jadson Castro Ziviani, Hugo Eduardo Müller, Jörg Philip Hossain, Sakif
Palavras-chave:	Human-robot collaboration Early action prediction Short-term action Transformers Industrial environments
Data do documento:	2025
Referência:	ZENÓBIO, João Gabriel Fernandes. Short-term early action prediction for human-robot collaboration: a deep learning attention-based approach. 2025. 69 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2025.
Resumo:	A colaboração entre humanos e robôs não é mais um cenário de filme. Devido ao aumento do número de ambientes de trabalho em que esse tipo de interação ocorre, os robôs devem ser capazes, assim como os humanos, de fazer previsões sobre seus parceiros para que possam trabalhar juntos. Este estudo pesquisou sistematicamente na literatura os modelos de previsão de ação antecipada baseados em mecanismos de atenção, oferecendo uma ampla visão geral do estado da arte. Foi encontrado apenas um modelo adequado com essas características, o TemPr, que representa o estado da arte na área de previsão de ação antecipada. Também foi proposta uma metodologia para analisar o modelo encontrado para a detecção prévia de ações no contexto da colaboração entre humanos e robôs em ambientes industriais para contribuir com essa área de pesquisa. O conjunto de dados InHARD é usado para treinar os modelos, o Optuna é usado para ajustar automaticamente os hiperparâmetros do modelo e o MLflow é usado para rastrear os hiperparâmetros e analisar os resultados de diferentes modelos. O modelo TemPr é amplamente analisado para diferentes proporções de observação de vídeo. Os experimentos são executados em uma máquina com uma GPU disponível em um contêiner Docker com uma imagem de base disponível no Nvidia GPU Container. O modelo final alcançou uma precisão de 59% e 55%, e uma pontuação ROC AUC macro-média OvR de 93% e 92%, para uma taxa de observação de 1,0 e 0,3, respectivamente. Assim, o treinamento da rede foi bem-sucedido e obteve ótimos resultados mesmo quando apenas uma pequena parte da ação.
Resumo em outra língua:	The collaboration between humans and robots is no longer a movie scenario. Due to the increase in the number of work environments in which this type of interaction takes place, robots must be able, just like humans, to make predictions about their partners so that they can work together. This study systematically searched the literature for early action prediction models based on attention mechanisms, offering a broad overview of the state of the art. Only one suitable model with such characteristics was found, TemPr, which represents the state of the art in the area of early action prediction. It also proposed a methodology for analyzing the model found for the prior detection of actions in the context of human-robot collaboration in industrial environments to contribute to this area of research. The InHARD dataset is used to train the models, Optuna is used to automatically tune hyperparameters for the model, and MLflow is used to track hyperparameters and analyze the results of different models. The TemPr model is extensively analyzed for different video observation ratios. The experiments are run on a machine with an available GPU within a Docker container with a base image available on the Nvidia GPU Container. The final model achieved an accuracy of 59% and 55%, and an OvR macro-average ROC AUC score of 93% and 92%, for an observation ratio of 1.0 and 0.3, respectively. Thus, the network training was successful and had great results even when only a small part of the action video was available.
URI:	http://www.monografias.ufop.br/handle/35400000/7648
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MONOGRAFIA_Short-termEarlyAction.pdf		4,43 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas