Use este identificador para citar ou linkar para este item:
http://www.monografias.ufop.br/handle/35400000/7640
Título: | Detecção de textos gerados por LLMs em português. |
Autor(es): | Paes, Guilherme Salim Monteiro de Castro |
Orientador(es): | Silva, Pedro Henrique Lopes |
Membros da banca: | Oliveira, Amanda da Silva Guilarducci, Augusto Ferreira Silva, Pedro Henrique Lopes |
Palavras-chave: | Inteligência artificial Aprendizado do computador Modelos de linguagem de grande escala. |
Data do documento: | 2025 |
Referência: | PAES, Guilherme Salim Monteiro de Castro. Detecção de textos gerados por LLMs em português. 2025. 49 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2025. |
Resumo: | Com o aumento gradativo da disponibilização e uso de modelos de Inteligência Artificial (IA) generativa, levanta-se a preocupação com os perigos do seu mau uso. Apesar de terem sido desenvolvidos para atuar como ferramentas que facilitam o cotidiano popular, problemas como plágio e desinformação acabam escalando em razão do uso indevido ou mal-intencionado desses modelos. Por serem recentes e extremamente poderosos, ainda há certa dificuldade em identificar textos gerados pelos chamados Large Language Models (LLMs). Com isso em mente, propõe-se um dataset com exemplos de textos humanos, artificiais e textos originalmente humanos porém reescritos por IA. Além disso, foram propostos um conjunto de cinco algoritmos classificadores baseados nos LLMs da família Llama e BERT e uma Recurrent Neural Network, baseada em camadas LSTM bi-direcionais. Os classificadores atingiram resultados positivos, alcançando acurácias de até 98,18% e 97,7%, nas classificações de duas (escrito e não escrito por uma LLM) e três classes (escrito, não escrito e reescrito por uma LLM), respectivamente, no conjunto de teste proposto. |
Resumo em outra língua: | With the gradual increase in the availability and use of generative Artificial Intelligence (AI) models, concerns about the dangers of their misuse are being raised. Although they were developed as tools to facilitate everyday life, issues such as plagiarism and misinformation have escalated due to the improper or malicious use of these models. Because they are recent and extremely powerful, there is still some difficulty in identifying texts generated by so-called Large Language Models (LLMs). With this in mind, we propose a dataset containing examples of human-written texts, AI-generated texts, and originally human-written texts that have been rewritten by AI. Additionally, a set of five classification algorithms based on Llama and BERT family LLMs, as well as a Recurrent Neural Network based on bi-directional LSTM layers, was proposed. The classifiers achieved positive results, reaching accuracies of up to 98.18% and 97.7% in binary classification (written or not written by an LLM) and three-class classification (written, not written, and rewritten by an LLM), respectively, on the proposed test set. |
URI: | http://www.monografias.ufop.br/handle/35400000/7640 |
Aparece nas coleções: | Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
MONOGRAFIA_DetecçãoTextosGerados.pdf | 2,22 MB | Adobe PDF | Visualizar/Abrir |
Os itens na BDTCC estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.