Detecção de discursos racistas : uma abordagem baseada em processamento de linguagem natural e aprendizado de máquina.

Vaz, João Vítor dos Santos

Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/6367

Título:	Detecção de discursos racistas : uma abordagem baseada em processamento de linguagem natural e aprendizado de máquina.
Autor(es):	Vaz, João Vítor dos Santos
Orientador(es):	Gertrudes, Jadson Castro
Membros da banca:	Oliveira, Amanda da Silva Santos, Valéria de Carvalho Gertrudes, Jadson Castro
Palavras-chave:	Aprendizado de máquina Processamento de linguagem natural Racismo Twitter
Data do documento:	2024
Referência:	VAZ, João Vítor dos Santos. Detecção de discursos racistas : uma abordagem baseada em processamento de linguagem natural e aprendizado de máquina. 2024. 40 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2024.
Resumo:	O crescimento notável das redes sociais tem sido acompanhado pelo aumento significativo na disseminação de discursos racistas nesses ambientes. Isso tem suscitado um interesse crescente em estudos relacionados a essa problemática. No entanto, há a existência de uma lacuna no âmbito da pesquisa, particularmente no contexto da língua portuguesa. O presente trabalho visa contribuir nessa área por meio da utilização de técnicas de Aprendizado de Máquina e Processamento de Linguagem Natural. O objetivo central é realizar a junção de bases de dados pertinentes da literatura e aplicar uma série de etapas de pré-processamento de texto. Além disso, há a utilização de duas técnicas de balanceamento de dados: undersampling e oversampling, bem como a extração de N-gramas e a utilização dos algoritmos de Aprendizado de Máquina Supervisionado conhecidos como Regressão Logística, Support Vector Machine (SVM) e Naive Bayes. Avaliações abrangentes são realizadas, incluindo a validação cruzada k-fold, utilizando métricas como acurácia e F1-score. Os resultados dos testes demonstram que, com base na métrica de acurácia, o melhor resultado é alcançado através do uso do modelo Regressão Logística registrando uma mediana de aproximadamente 93%. Em todas as combinações de n-gramas testadas, o modelo de oversampling exibe um desempenho superior.
Resumo em outra língua:	The remarkable growth of social networks has been accompanied by a significant increase in the spread of racist discourses within these environments. This has sparked a growing interest in studies related to this issue. However, there is a gap in research, particularly within the context of the Portuguese language. The present work aims to fill this gap through the application of Machine Learning techniques and Natural Language Processing. The main goal is to merge relevant databases from the literature and apply a series of text pre-processing steps. In addition, two data balancing techniques are used: undersampling and oversampling, as well as the extraction of N-grams and the use of Supervised Machine Learning algorithms known as Logistic Regression, Support Vector Machine (SVM), and Naive Bayes. Extensive evaluations are carried out, including k-fold cross-validation, using metrics such as accuracy and F1-score. The test results show that, based on the accuracy metric, the best result is achieved through the use of the Logistic Regression registering a median of approximately 93%. In all tested n-gram combinations, the oversampling model exhibits superior performance.
URI:	http://www.monografias.ufop.br/handle/35400000/6367
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MONOGRAFIA_DetecçãoDeDiscursosRacistas.pdf		8 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas