Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/1531
Título: Analysis and classification of texts for industrial machines maintenance.
Autor(es): Rocha, Samuel Queiroz Souza
Orientador(es): Lima, Joubert de Castro
Membros da banca: Fortes, Reinaldo Silva
Silva, Rodrigo Rocha
Moraes, Lauro Ângelo Gonçalves de
Lima, Joubert de Castro
Palavras-chave: Aprendizagem do computador
Mineração de dados
Data do documento: 2018
Referência: ROCHA, Samuel Queiroz Souza. Analysis and classification of texts for industrial machines maintenance. 2018. 39 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.
Resumo: Análise e classificação de textos são importantes tarefas em mineração de dados. Através de tais tarefas conseguimos, a partir de dados brutos, extrair ou gerar informações relevantes que podem ser usadas para resolver problemas ou melhorar soluções já existentes. Este trabalho aborda uma solução para o problema em que dado uma descrição textual para um erro de uma máquina industrial, o classificador deve atribuir um código de erro para a tal descrição. Uma solução computacional que resolva tal problema pode contribuir para agilização no processo de manutenção, diminuindo o tempo de inatividade das máquinas e reduzindo o custo dos erros de alocação de técnicos. Neste trabalho, nós testamos três métodos de aprendizado de máquina com uma base de dados de históricos textuais em inglês que contém as descrições de erro, e as técnicas são: Support Vector Machine (SVM), Random Forest e FastText. Uma importante inovação deste trabalho é um caso de estudo para a literatura na área de aprendizado de máquina, no qual o número de classes a serem identificadas é alta, passando de 1200 diferentes classes. Em contrapartida, o estado da arte em classificação de textos descreve casos de estudo com apenas dezenas de classes. Os resultados usando uma estratégia de 5-fold cross validation e IRace para configurar os parâmetros de entrada dos três classificadores alcançaram altos f1- score para quase todos os métodos avaliados, com os resultados variando precisamente entre 67,5 e 94,92% em um conjunto de dados composto por mais de 800 mil descrições textuais curtas. O FastText provou ser mais rápido que os outros, precisamente 4 vezes mais rápido que o SVM e 1,3 vezes mais rápido que o Random Forest.
Resumo em outra língua: Analysis and classification of texts are important tasks in data mining. Through such tasks, we are able to extract or generate relevant information from raw data that can be used to solve problems or improve existing solutions. This work addresses a solution for the problem of given a textual description for an industrial machine error, the classifier must assign a fault code for such a description. A computational solution that attenuates such a problem can contribute to streamlining the maintenance process, reducing the machine utilization downtime and reducing the cost of technical allocation errors. In this work, we tested three machine learning methods with a historical English text dataset with error descriptions and they are: Support Vector Machine (SVM), Random Forest and FastText. One important innovation of this work is a case study for the machine learning literature where the number of classes to be identified is high, reaching more than 1200 different classes. In contrast, the state-of-art in text classification described case studies with only tens of classes. The results using a 5- fold cross validation strategy and IRace for configuring the three classifiers input parameters achieved high f1-score for almost all evaluated methods, precisely the results varied from 67,5 to 94,92% in a dataset composed of more than 800k short text descriptions. The FastText proved to be faster than the others, precisely 4 times faster than SVM and 1,3 times faster than Random Forest.
URI: http://www.monografias.ufop.br/handle/35400000/1531
Licença: Autorização concedida à Biblioteca Digital de TCC’s da UFOP pelo(a) autor(a) em 19/12/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MONOGRAFIA_AnalysisClassificationTexts.pdf524,64 kBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons