Yucca : coletor temático de páginas da Web baseado em gênero e conteúdo.

Paulino, Thiago Urzedo da Silva

Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/7047

Registro completo de metadados

Campo Dublin Core	Valor	Idioma
dc.contributor.advisor	Assis, Guilherme Tavares de	pt_BR
dc.contributor.author	Paulino, Thiago Urzedo da Silva	-
dc.date.accessioned	2024-10-17T14:15:17Z	-
dc.date.available	2024-10-17T14:15:17Z	-
dc.date.issued	2024	pt_BR
dc.identifier.citation	PAULINO, Thiago Urzedo da Silva. Yucca: coletor temático de páginas da Web baseado em gênero e conteúdo. 2024. 41 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2024.	pt_BR
dc.identifier.uri	http://www.monografias.ufop.br/handle/35400000/7047	-
dc.description.abstract	Os coletores temáticos têm o propósito principal de facilitar a descoberta, organização e acesso a conteúdos relevantes na internet, agrupando informações relacionadas a um tema específico em um único lugar. Eles são utilizados de diversas maneiras, adaptando-se às necessidades e aos interesses individuais dos usuários. Nesse contexto, foi proposta em ASSIS et al. (2007), ASSIS et al. (2008) and ASSIS et al. (2009) uma abordagem de coleta temática em que o tópico de interesse do usuário pode ser expresso por meio de termos de gênero e conteúdo das páginas Web desejadas. Tal abordagem possibilita a construção de coletores temáticos eficazes, eficientes e escaláveis. Visando aperfeiçoar a eficiência e a eficácia de tal abordagem, foram propostas as seguintes melhorias: uma nova política de localização de páginas relevantes baseada em Link Context, proposto em MANGARAVITE, ASSIS e FERREIRA (2012); uma estratégia para a determinação semiautomática de páginas-semente, proposto em MANGARAVITE et al. (2014); uma estratégia para a definição automática de limites de similaridade, proposto em SIQUEIRA et al. (2016); uma estratégia de aperfeiçoamento automático dos conjuntos de termos de gênero e conteúdo, proposto em COSTA (2017); e uma estratégia para a geração semiautomática dos termos iniciais de gênero e conteúdo necessários para a realização de um processo de coleta, proposta em SILVA (2023). Dessa forma, este trabalho propõe o desenvolvimento e a validação de uma versão completa e funcional de um coletor temático, denominado Yucca, seguindo a abordagem original de coleta temática e suas melhorias citadas, além de solucionar necessidades e problemas ocorridos em implementações anteriores relativas ao Yucca, por meio de uma re- implementação do coletor original e suas melhorias, utilizando tecnologias atuais. Por meio dos processos de coleta realizados experimentalmente, considerando distintos tópicos de interesse, o Yucca apresentou-se como um coletor temático eficaz, já que os níveis de precisão alcançados, foram bem satisfatórios, chegando a ser superiores a 78% ao considerar 60 páginas retornadas como relevantes pelo coletor.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Coletor temático	pt_BR
dc.title	Yucca : coletor temático de páginas da Web baseado em gênero e conteúdo.	pt_BR
dc.type	TCC-Graduação	pt_BR
dc.contributor.referee	Bianchi, Andrea Gomes Campos	pt_BR
dc.contributor.referee	Gertrudes, Jadson Castro	pt_BR
dc.contributor.referee	Assis, Guilherme Tavares de	pt_BR
dc.description.abstracten	Foccused Crawlers have the primary purpose of facilitating the discovery, organization, and access to relevant content on the internet by grouping information related to a specific theme in one place. They are used in various ways, adapting to the individual needs and interests of users. In this context, an approach to thematic collection was proposed in ASSIS et al. (2007), ASSIS et al. (2008) and ASSIS et al. (2009) where the user’s topic of interest can be expressed through genre and content terms of the desired web pages. Such an approach enables the construction of effective, efficient, and scalable thematic collectors. In order to enhance the efficiency and effectiveness of this approach, the following improvements have been proposed: a new policy for locating relevant pages based on Link Context, proposed in MANGARAVITE, ASSIS e FERREIRA (2012); a strategy for the semi-automatic determination of seed pages, proposed in MANGARAVITE et al. (2014); a strategy for automatically defining similarity limits, proposed in SIQUEIRA et al. (2016); a strategy for the automatic refinement of genre and content term sets, proposed in COSTA (2017); and a strategy for the semi-automatic generation of initial genre and content terms necessary for the collection process, proposed in SILVA (2023). Thus, this work proposes the development and validation of a complete and functional version of a focused crawler, called Yucca, following the original approach of focused collection and its cited improvements, in addition to addressing needs and issues encountered in previous implementations related to Yucca, through a re-implementation of the original crawler and its improvements, using current technologies. Through the collection processes conducted experimentally, considering different topics of interest, Yucca proved to be an effective focused crawler, as the precision levels achieved were quite satisfactory, reaching over 78% when considering 60 pages returned as relevant by the crawler.	pt_BR
dc.contributor.authorID	21.2.4174	pt_BR
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MONOGRAFIA_YuccaColetorTemático.pdf		1,88 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas