Desenvolvimento de um coletor temático de páginas da web baseado em gênero e conteúdo.

Alves Júnior, Marcelo Trajano

Use este identificador para citar ou linkar para este item: http://www.monografias.ufop.br/handle/35400000/3287

Registro completo de metadados

Campo Dublin Core	Valor	Idioma
dc.contributor.advisor	Assis, Guilherme Tavares de	pt_BR
dc.contributor.author	Alves Júnior, Marcelo Trajano	-
dc.date.accessioned	2021-08-20T14:43:34Z	-
dc.date.available	2021-08-20T14:43:34Z	-
dc.date.issued	2021	pt_BR
dc.identifier.citation	ALVES JÚNIOR, Marcelo Trajano. Desenvolvimento de um coletor temático de páginas da web baseado em gênero e conteúdo. 2021. 45 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2021.	pt_BR
dc.identifier.uri	http://www.monografias.ufop.br/handle/35400000/3287	-
dc.description.abstract	Coletores temáticos são utilizados com um propósito de coletar páginas na Web que satisfaçam alguma propriedade particular e que sejam relevantes a um tópico de interesse específico, sendo importantes para uma grande variedade de aplicações. Para situações particulares, foi proposta e desenvolvida uma abordagem para coleta temática onde o tópico de interesse pode ser expresso por termos que descrevem o gênero e o conteúdo das páginas da Web desejadas. Visando aperfeiçoar a eficiência e a eficácia de tal abordagem original para coleta temática baseada em gênero e conteúdo, foram propostas, desenvolvidas e validadas as seguintes melhorias: uma nova política de localização de páginas relevantes baseada em Link Context, uma estratégia para a determinação semiautomática de páginas-semente, uma estratégia para a definição automática de limites de similaridade e uma estratégia de aperfeiçoamento automático dos conjuntos originais de termos de gênero e conteúdo. Nesse contexto, este trabalho propõe desenvolver uma primeira versão completa e funcional de um coletor temático, denominado Yucca, seguindo a abordagem original para coleta temática baseada em gênero e conteúdo e integrando as melhorias mencionadas, para que possa ser utilizada por distintos usuários de uma forma simples e robusta. Para validar o Yucca, experimentos foram realizados envolvendo a coleta de páginas da Web referentes a três tópicos de interesse distintos e atuais. De uma forma geral, o Yucca apresentou-se como um coletor temático eficaz, já que os níveis de precisão alcançados, pelos processos de coleta realizados, foram bem satisfatórios, chegando a ser superiores a 73% ao considerar 10 páginas retornadas como relevantes pelo coletor.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Processos de coleta temática	pt_BR
dc.subject	Coletor temático	pt_BR
dc.subject	Termos de gênero	pt_BR
dc.subject	Termos de conteúdo	pt_BR
dc.subject	Limite de similaridade	pt_BR
dc.subject	Expansão de termos	pt_BR
dc.title	Desenvolvimento de um coletor temático de páginas da web baseado em gênero e conteúdo.	pt_BR
dc.type	TCC-Graduação	pt_BR
dc.contributor.referee	Assis, Guilherme Tavares de	pt_BR
dc.contributor.referee	Gertrudes, Jadson Castro	pt_BR
dc.contributor.referee	Bianchi, Andrea Gomes Campos	pt_BR
dc.description.abstracten	Focused crawlers are generally used to crawl pages that satisfy some particular property and that are relevant to a specific topic of interest and are important for a wide variety of applications. For particular situations, a focused crawling approach was proposed and developed where the topic of interest can be expressed by terms that describe the genre and content of the desired web pages. In order to improve the efficiency and effectiveness of such an original genre-aware approach to focused crawling, the following improvements have been proposed, developed and validated: relevant page location policy based on Link Context, semi-automatic seed page determination, automatic similarity threshold definition and automatic refinement of genre and content term sets. In this context, this work proposes to develop a complete and functional version of a crawler, called Yucca, following the original genre-aware approach to focused crawling and the improvements already developed and validated, so that it can be used by different users in a simple and robust way. To validate Yucca, experiments were performed involving the crawling of web pages referring to three distinct and current topics of interest. In general, Yucca presented itself as an effective focused crawler, since the levels of precision achieved by the crawling processes carried out were quite satisfactory, reaching more than 73% when considering 10 pages returned as relevant by the crawler.	pt_BR
dc.contributor.authorID	17.2.5883	pt_BR
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MONOGRAFIA_DesenvolvimentoColetorTemático.pdf		4,64 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons