Um estudo empírico sobre técnicas para detecção de discursos de ódio em postagens públicas escritas em português.

Castro, Lucas de Rocha

Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/1878

Título:	Um estudo empírico sobre técnicas para detecção de discursos de ódio em postagens públicas escritas em português.
Autor(es):	Castro, Lucas de Rocha
Orientador(es):	Silva, Amanda Sávio Nascimento e
Membros da banca:	Ferreira, Anderson Almeida Coelho, Dayanne Gouveia Silva, Amanda Sávio Nascimento e
Palavras-chave:	Discurso de ódio Aprendizado de máquina Língua portuguesa Support Vector Machine Naive Bayes
Data do documento:	2019
Referência:	CASTRO, Lucas de Rocha. Um estudo empírico sobre técnicas para detecção de discursos de ódio em postagens públicas escritas em português. 2019. 41 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2019
Resumo:	É cada vez maior o número de usuários conectados a redes sociais, ambientes propícios para a liberdade de expressão. Contudo, também é crescente o número de discursos de ódios ou ofensivos nessas redes, podendo inclusive serem enquadrados em códigos penais e levar a punições diversas. Nesse contexto, há muitos autores que estudam e propõe meios para detecteção de discursos de ódios e mensagens ofensivas em redes sociais, sendo recorrentes soluções que são modeladas utilizando métodos de aprendizado de máquina. Contudo, ainda são poucos trabalhos que abordam a detecção de ódio em postagens escritas em português. Nesse contexto, este trabalho é um estudo comparativo que demonstra a eficiencia da combinação de técnicas de extração de radical, data augmentation and pseudo labelling, undersampling e feature selection para a detecção de discurso de ódio em redes sociais brasileiras utilizando os classificadores de Naive Bayes e Support Vector Machine. Segundo a métrica de f-measure, os resultados finais demonstraram que data augmentation não é uma técnica efetiva, enquanto que, feature selection se comporta bem com qualquer outra técnica, resultando em uma f-measure de até 91% quando utilizada com undersampling. A extração de radical foi bom em alguns cenários mas pouco eficiente ou neutra em outros cenários. Para trabalhos futuros, pretende-se realizar testes utilizando outros classificadores, técnicas e implementar algoritmos para categorização dos discursos de ódio como machismo, homofobia, racismo, dentre outras formas de discriminações.
Resumo em outra língua:	The number of users connected to social networks, environments favorable to freedom of expres- sion, is increasing. However, the number of hating or offensive discourses in these networks is also increasing, and may even be framed in penal codes and lead to various punishments. In this context, there are many authors who study and propose means for detecting hate speech and offensive messages in social networks, being recurrent solutions that are modeled using machine learning methods. However, there are still few studies that deal with hate detection in written Portuguese posts. In this context, this work is a comparative study that demonstrates the efficiency of the combination of radical extraction techniques, data augmentation and pseudo-labeling, undersampling and feature selection for detection of hate speech in Brazilian social networks using the Naive Bayes and Support Vector Machine classifiers. According to the f-measure metric, the final results demonstrated that date augmentation is not an effective technique, whereas feature selection behaves well with any other technique, resulting in a f-measure of up to 91% when used with undersampling. Radical extraction was good in some scenarios but poorly efficient or neutral in other scenarios. For future work, we intend to perform tests using other classifiers, techniques and implement algorithms for categorizing hate speech such as machism, homophobia, racism, among other forms of discrimination
URI:	http://www.monografias.ufop.br/handle/35400000/1878
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MONOGRAFIA_EstudoEmpíricoTécnicas.pdf		884,77 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons