Use este identificador para citar ou linkar para este item:
http://www.monografias.ufop.br/handle/35400000/4208
Título: | ATRI: um ambiente experimental de recuperação de informação. |
Autor(es): | Rezende, Marcos Felipe Pontes |
Orientador(es): | Assis, Guilherme Tavares de |
Membros da banca: | Ribeiro, Rodrigo Geraldo Silva, Rodrigo César Pedrosa Assis, Guilherme Tavares de |
Palavras-chave: | Cálculo de similaridade Algoritmos Recuperação da Informação |
Data do documento: | 2022 |
Referência: | REZENDE, Marcos Felipe Pontes. ATRI: um ambiente experimental de recuperação de informação. 2022. 65 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2022. |
Resumo: | Dentro da área de Recuperação de Informação (RI), algoritmos de ranqueamento são respon sáveis por decidir, mediante uma consulta, quais documentos são relevantes ou não à mesma. Neste contexto, visando garantir eficácia aos resultados retornados, é necessário uma modelagem apropriada dos documentos da coleção e das consultas consideradas, no intuito de produzir, adequadamente, uma função de ranqueamento que atribui pontuações de similaridade entre uma consulta e documentos de uma coleção. Para definição de funções de ranqueamento, diversos mo delos de RI foram propostos, utilizando-se de formulações booleanas, vetoriais e probabilísticas. Cada modelo de RI possui suas próprias premissas de funcionamento que levam à classifica ção de documentos de uma determinada coleção, mediante consultas desejadas. Desta forma, este trabalho tem, como objetivo principal, a proposta, o desenvolvimento e a validação de um ambiente experimental de RI, denominado ATRI, que se baseia em distintos modelos de RI para cálculo de similaridade entre consultas e documentos de uma coleção por meio de uma interface amigável, podendo ser aplicado em situações diversas. Para tanto, foram considerados, para cálculo de similaridade, os modelos Booleano, Vetorial, Probabilístico, BM25, Redes de Crença, Booleano Estendido, Vetorial Generalizado, DFRee, PL2 e PageRank. Além disso, o ATRI permite a criação de um ambiente de avaliação de eficácia e benchmarking para a área de RI, por meio da criação automática de ensembles, visualização de métricas de eficácia e suporte a coleções textuais diversas. Para validar o ambiente proposto e desenvolvido, experimentos foram realizados, envolvendo quatro coleções de teste padronizadas e suas respectivas consultas. Por meio da análise dos resultados dos experimentos realizados, foi possível perceber que o modelo BM25 apresentou os melhores resultados quando comparado aos demais modelos de RI, embora todos tenham apresentados resultados satisfatórios em contextos particulares, e que a utilização de ensembles, por combinar boas características dos modelos suportados pelo ATRI, pode ser capaz de criar funções de ranqueamento mais eficazes. |
Resumo em outra língua: | In Information Retrieval (IR), ranking algorithms are responsible for deciding, based on a query, which documents are relevant to it. In this context, to guarantee the effectiveness of the returned results, an appropriate modeling of the considered documents and queries is necessary, aiming to produce ranking functions that assigns similarity scores between a query and documents from a collection. To define ranking functions, several IR models were proposed, using boolean, vectorial and probabilistic formulations. Each IR model has its foundations that lead to the rank of documents from a given corpus based on different queries. Thus, this work has, as main objective, the proposal, development, and validation of an experimental IR environment, called ATRI, which includes different IR models to calculate the similarity between queries and documents in a collection through a friendly interface, and could have applications in different scenarios. For this purpose, the following models were considered for similarity calculation: Boolean, Vector Space, Probabilistic, BM25, Belief Network, Extended Boolean, Generalized Vector Space, DFRee, PL2, and PageRank. In addition, ATRI allows the creation of a benchmarking environment for evaluation of the effectiveness and performance on IR through automatic creation of ensembles, visualization of effectiveness metrics, and support to distinct collections. In order to validate the proposed environment developed, experiments were performed involving four standardized test collections and their respective queries. Analyzing the experiments’ results, it was possible to see that the BM25 model presented better results when compared to the other tested IR models, despite all models presenting satisfactory results for particular contexts, and also that the usage of ensembles, that combines good of all models supported by ATRI, may be qualified to create more efficient ranking functions. |
URI: | http://www.monografias.ufop.br/handle/35400000/4208 |
Aparece nas coleções: | Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
MONOGRAFIA_ATRIAmbienteExperimental.pdf | 1,65 MB | Adobe PDF | Visualizar/Abrir |
Os itens na BDTCC estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.