Please use this identifier to cite or link to this item: http://www.monografias.ufop.br/handle/35400000/8902
Title: Plasticidade e rigidez em modelos de embeddings globais e monolíngues para o português brasileiro.
Authors: Vieira, Matheus Peixoto Ribeiro
metadata.dc.contributor.advisor: Silva, Pedro Henrique Lopes
metadata.dc.contributor.referee: Costa, Arthur Negrão de Faria Martins da
Gonçalves Júnior, Ederson Naves Fernandes
Silva, Pedro Henrique Lopes
Keywords: Embeddings
Tokens
Transformer
Modelo multilíngue
Modelo monolíngue
Plasticidade
Rigidez
Issue Date: 2026
Citation: VIEIRA, Matheus Peixoto Ribeiro. Plasticidade e rigidez em modelos de embeddings globais e monolíngues para o português brasileiro. 2026. 80 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2026
Abstract: Este trabalho investiga comparativamente modelos de embeddings globais e monolíngues aplicados ao português brasileiro, analisando o equilíbrio entre plasticidade e rigidez das representações semânticas sob diferentes regimes de uso. São avaliadas sete famílias de modelos em quatro tarefas de processamento de linguagem natural (classificação, clusterização, inferência textual e similaridade semântica textual) considerando tanto o regime de linear probing quanto a adaptação supervisionada via fine-tuning eficiente de parâmetros com LoRA. Os resultados indicam que, embora modelos globais apresentem desempenho competitivo em linear probing, modelos monolíngues tendem a demonstrar maior estabilidade e ganhos mais consistentes após a adaptação, especialmente em tarefas sensíveis à geometria do espaço de embeddings, como STS. Adicionalmente, análises quantitativas e qualitativas de tokenização revelam que somente vocabulários especializados não garantem maior eficiência ou desempenho, evidenciando um dilema entre alinhamento morfológico, robustez a empréstimos linguísticos e compactação das representações. As descobertas contribuem para uma compreensão mais profunda dos trade-offs envolvidos na escolha e adaptação de modelos de embeddings para aplicações em português brasileiro, oferecendo subsídios práticos para decisões em cenários reais de PLN.
metadata.dc.description.abstracten: This work presents a comparative investigation of global and monolingual embedding models applied to Brazilian Portuguese, analyzing the balance between plasticity and rigidity of semantic representations under different usage regimes. Seven families of models are evaluated across four natural language processing tasks (classification, clustering, natural language inference and semantic textual similarity) considering both linear probing and supervised adaptation via parameter-efficient fine-tuning with LoRA. The results indicate that, although global models achieve competitive performance under linear probing, monolingual models tend to exhibit greater stability and more consistent gains after adaptation, particularly in tasks sensitive to the geometry of the embedding space, such as STS. In addition, quantitative and qualitative analyses of tokenization reveal that specialized vocabularies do not inherently guarantee higher efficiency or performance, highlighting a trade-off between morphological alignment, robustness to lexical borrowings, and representation compactness. These findings contribute to a deeper understanding of the trade-offs involved in selecting and adapting embedding models for Brazilian Portuguese, providing practical insights for decision-making in real-world NLP applications
URI: http://www.monografias.ufop.br/handle/35400000/8902
Appears in Collections:Ciência da Computação

Files in This Item:
File Description SizeFormat 
MONOGRAFIA_PlasticidadeRigidezModelo.pdf3,74 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.