Por favor, use este identificador para citar o enlazar este ítem: http://www.monografias.ufop.br/handle/35400000/8902
Título : Plasticidade e rigidez em modelos de embeddings globais e monolíngues para o português brasileiro.
Autor : Vieira, Matheus Peixoto Ribeiro
metadata.dc.contributor.advisor: Silva, Pedro Henrique Lopes
metadata.dc.contributor.referee: Costa, Arthur Negrão de Faria Martins da
Gonçalves Júnior, Ederson Naves Fernandes
Silva, Pedro Henrique Lopes
Palabras clave : Embeddings
Tokens
Transformer
Modelo multilíngue
Modelo monolíngue
Plasticidade
Rigidez
Fecha de publicación : 2026
Citación : VIEIRA, Matheus Peixoto Ribeiro. Plasticidade e rigidez em modelos de embeddings globais e monolíngues para o português brasileiro. 2026. 80 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2026
Resumen : Este trabalho investiga comparativamente modelos de embeddings globais e monolíngues aplicados ao português brasileiro, analisando o equilíbrio entre plasticidade e rigidez das representações semânticas sob diferentes regimes de uso. São avaliadas sete famílias de modelos em quatro tarefas de processamento de linguagem natural (classificação, clusterização, inferência textual e similaridade semântica textual) considerando tanto o regime de linear probing quanto a adaptação supervisionada via fine-tuning eficiente de parâmetros com LoRA. Os resultados indicam que, embora modelos globais apresentem desempenho competitivo em linear probing, modelos monolíngues tendem a demonstrar maior estabilidade e ganhos mais consistentes após a adaptação, especialmente em tarefas sensíveis à geometria do espaço de embeddings, como STS. Adicionalmente, análises quantitativas e qualitativas de tokenização revelam que somente vocabulários especializados não garantem maior eficiência ou desempenho, evidenciando um dilema entre alinhamento morfológico, robustez a empréstimos linguísticos e compactação das representações. As descobertas contribuem para uma compreensão mais profunda dos trade-offs envolvidos na escolha e adaptação de modelos de embeddings para aplicações em português brasileiro, oferecendo subsídios práticos para decisões em cenários reais de PLN.
metadata.dc.description.abstracten: This work presents a comparative investigation of global and monolingual embedding models applied to Brazilian Portuguese, analyzing the balance between plasticity and rigidity of semantic representations under different usage regimes. Seven families of models are evaluated across four natural language processing tasks (classification, clustering, natural language inference and semantic textual similarity) considering both linear probing and supervised adaptation via parameter-efficient fine-tuning with LoRA. The results indicate that, although global models achieve competitive performance under linear probing, monolingual models tend to exhibit greater stability and more consistent gains after adaptation, particularly in tasks sensitive to the geometry of the embedding space, such as STS. In addition, quantitative and qualitative analyses of tokenization reveal that specialized vocabularies do not inherently guarantee higher efficiency or performance, highlighting a trade-off between morphological alignment, robustness to lexical borrowings, and representation compactness. These findings contribute to a deeper understanding of the trade-offs involved in selecting and adapting embedding models for Brazilian Portuguese, providing practical insights for decision-making in real-world NLP applications
URI : http://www.monografias.ufop.br/handle/35400000/8902
Aparece en las colecciones: Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
MONOGRAFIA_PlasticidadeRigidezModelo.pdf3,74 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.