Please use this identifier to cite or link to this item: http://www.monografias.ufop.br/handle/35400000/6367
Title: Detecção de discursos racistas : uma abordagem baseada em processamento de linguagem natural e aprendizado de máquina.
Authors: Vaz, João Vítor dos Santos
metadata.dc.contributor.advisor: Gertrudes, Jadson Castro
metadata.dc.contributor.referee: Oliveira, Amanda da Silva
Santos, Valéria de Carvalho
Gertrudes, Jadson Castro
Keywords: Aprendizado de máquina
Processamento de linguagem natural
Racismo
Twitter
Issue Date: 2024
Citation: VAZ, João Vítor dos Santos. Detecção de discursos racistas : uma abordagem baseada em processamento de linguagem natural e aprendizado de máquina. 2024. 40 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2024.
Abstract: O crescimento notável das redes sociais tem sido acompanhado pelo aumento significativo na disseminação de discursos racistas nesses ambientes. Isso tem suscitado um interesse crescente em estudos relacionados a essa problemática. No entanto, há a existência de uma lacuna no âmbito da pesquisa, particularmente no contexto da língua portuguesa. O presente trabalho visa contribuir nessa área por meio da utilização de técnicas de Aprendizado de Máquina e Processamento de Linguagem Natural. O objetivo central é realizar a junção de bases de dados pertinentes da literatura e aplicar uma série de etapas de pré-processamento de texto. Além disso, há a utilização de duas técnicas de balanceamento de dados: undersampling e oversampling, bem como a extração de N-gramas e a utilização dos algoritmos de Aprendizado de Máquina Supervisionado conhecidos como Regressão Logística, Support Vector Machine (SVM) e Naive Bayes. Avaliações abrangentes são realizadas, incluindo a validação cruzada k-fold, utilizando métricas como acurácia e F1-score. Os resultados dos testes demonstram que, com base na métrica de acurácia, o melhor resultado é alcançado através do uso do modelo Regressão Logística registrando uma mediana de aproximadamente 93%. Em todas as combinações de n-gramas testadas, o modelo de oversampling exibe um desempenho superior.
metadata.dc.description.abstracten: The remarkable growth of social networks has been accompanied by a significant increase in the spread of racist discourses within these environments. This has sparked a growing interest in studies related to this issue. However, there is a gap in research, particularly within the context of the Portuguese language. The present work aims to fill this gap through the application of Machine Learning techniques and Natural Language Processing. The main goal is to merge relevant databases from the literature and apply a series of text pre-processing steps. In addition, two data balancing techniques are used: undersampling and oversampling, as well as the extraction of N-grams and the use of Supervised Machine Learning algorithms known as Logistic Regression, Support Vector Machine (SVM), and Naive Bayes. Extensive evaluations are carried out, including k-fold cross-validation, using metrics such as accuracy and F1-score. The test results show that, based on the accuracy metric, the best result is achieved through the use of the Logistic Regression registering a median of approximately 93%. In all tested n-gram combinations, the oversampling model exhibits superior performance.
URI: http://www.monografias.ufop.br/handle/35400000/6367
Appears in Collections:Ciência da Computação

Files in This Item:
File Description SizeFormat 
MONOGRAFIA_DetecçãoDeDiscursosRacistas.pdf8 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.