Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/1531
Registro completo de metadados
Campo Dublin CoreValorIdioma
dc.contributor.advisorLima, Joubert de Castropt_BR
dc.contributor.authorRocha, Samuel Queiroz Souza-
dc.date.accessioned2018-12-20T12:10:11Z-
dc.date.available2018-12-20T12:10:11Z-
dc.date.issued2018-
dc.identifier.citationROCHA, Samuel Queiroz Souza. Analysis and classification of texts for industrial machines maintenance. 2018. 39 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.pt_BR
dc.identifier.urihttp://www.monografias.ufop.br/handle/35400000/1531-
dc.description.abstractAnálise e classificação de textos são importantes tarefas em mineração de dados. Através de tais tarefas conseguimos, a partir de dados brutos, extrair ou gerar informações relevantes que podem ser usadas para resolver problemas ou melhorar soluções já existentes. Este trabalho aborda uma solução para o problema em que dado uma descrição textual para um erro de uma máquina industrial, o classificador deve atribuir um código de erro para a tal descrição. Uma solução computacional que resolva tal problema pode contribuir para agilização no processo de manutenção, diminuindo o tempo de inatividade das máquinas e reduzindo o custo dos erros de alocação de técnicos. Neste trabalho, nós testamos três métodos de aprendizado de máquina com uma base de dados de históricos textuais em inglês que contém as descrições de erro, e as técnicas são: Support Vector Machine (SVM), Random Forest e FastText. Uma importante inovação deste trabalho é um caso de estudo para a literatura na área de aprendizado de máquina, no qual o número de classes a serem identificadas é alta, passando de 1200 diferentes classes. Em contrapartida, o estado da arte em classificação de textos descreve casos de estudo com apenas dezenas de classes. Os resultados usando uma estratégia de 5-fold cross validation e IRace para configurar os parâmetros de entrada dos três classificadores alcançaram altos f1- score para quase todos os métodos avaliados, com os resultados variando precisamente entre 67,5 e 94,92% em um conjunto de dados composto por mais de 800 mil descrições textuais curtas. O FastText provou ser mais rápido que os outros, precisamente 4 vezes mais rápido que o SVM e 1,3 vezes mais rápido que o Random Forest.pt_BR
dc.language.isoen_USpt_BR
dc.rightsopen accesspt_BR
dc.subjectAprendizagem do computadorpt_BR
dc.subjectMineração de dadospt_BR
dc.titleAnalysis and classification of texts for industrial machines maintenance.pt_BR
dc.typeTCC-Graduaçãopt_BR
dc.rights.licenseAutorização concedida à Biblioteca Digital de TCC’s da UFOP pelo(a) autor(a) em 19/12/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.pt_BR
dc.contributor.refereeFortes, Reinaldo Silvapt_BR
dc.contributor.refereeSilva, Rodrigo Rochapt_BR
dc.contributor.refereeMoraes, Lauro Ângelo Gonçalves dept_BR
dc.contributor.refereeLima, Joubert de Castropt_BR
dc.description.abstractenAnalysis and classification of texts are important tasks in data mining. Through such tasks, we are able to extract or generate relevant information from raw data that can be used to solve problems or improve existing solutions. This work addresses a solution for the problem of given a textual description for an industrial machine error, the classifier must assign a fault code for such a description. A computational solution that attenuates such a problem can contribute to streamlining the maintenance process, reducing the machine utilization downtime and reducing the cost of technical allocation errors. In this work, we tested three machine learning methods with a historical English text dataset with error descriptions and they are: Support Vector Machine (SVM), Random Forest and FastText. One important innovation of this work is a case study for the machine learning literature where the number of classes to be identified is high, reaching more than 1200 different classes. In contrast, the state-of-art in text classification described case studies with only tens of classes. The results using a 5- fold cross validation strategy and IRace for configuring the three classifiers input parameters achieved high f1-score for almost all evaluated methods, precisely the results varied from 67,5 to 94,92% in a dataset composed of more than 800k short text descriptions. The FastText proved to be faster than the others, precisely 4 times faster than SVM and 1,3 times faster than Random Forest.pt_BR
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MONOGRAFIA_AnalysisClassificationTexts.pdf524,64 kBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons