Please use this identifier to cite or link to this item:
http://www.monografias.ufop.br/handle/35400000/5886
Title: | Geração semiautomática dos conjuntos iniciais de termos utilizados em processos de coleta temática de páginas da Web baseada em gênero e conteúdo. |
Authors: | Silva, Myllene Ferreira da |
metadata.dc.contributor.advisor: | Assis, Guilherme Tavares de |
metadata.dc.contributor.referee: | Bianchi, Andrea Gomes Campos Gertrudes, Jadson Castro Assis, Guilherme Tavares de |
Keywords: | Coleta temática de páginas da web Termos de gênero Termos de conteúdo |
Issue Date: | 2023 |
Citation: | SILVA, Myllene Ferreira da. Geração semiautomática dos conjuntos iniciais de termos utilizados em processos de coleta temática de páginas da Web baseada em gênero e conteúdo. 2023. 47 f. Monografia (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2023. |
Abstract: | Os coletores temáticos apresentam o propósito maior de coletar páginas da Web que sejam relevantes a um tópico de interesse específico do usuário, sendo, com isso, importantes para uma grande variedade de aplicações. Nesse contexto, foi proposta e desenvolvida proposta em ASSIS et al.; JÚNIOR et al.(2009; 2008; 2007; 2021) uma abordagem para coleta temática em que o tópico de interesse do usuário pode ser expresso por termos que descrevem o conteúdo e o gênero das páginas da Web desejadas. Tal abordagem possibilita a construção de coletores temáticos que realizam processos de coleta eficazes, eficientes e escaláveis, caso tais termos de conteúdo e gênero, fornecidos como dados de entrada, sejam bem significativos ao tópico de interesse em questão. Durante a experimentação conduzida para validar a abordagem proposta, para cada tópico de interesse considerado, especialistas definiram os termos de gênero e conteúdo utilizados nos processos relativos de coleta. Assim, devido à importância de se definir termos significativos para a realização de processos de coleta relativos ao tópico de interesse desejado, faz-se necessário especificar os conjuntos iniciais de termos de gênero e conteúdo de uma forma mais precisa, segura e ágil. Neste contexto, este trabalho propõe desenvolver uma estratégia para a geração semiautomática dos conjuntos iniciais de termos de gênero e conteúdo a serem usados em processos de coleta temática baseada em gênero e conteúdo. Por meio de experimentos realizados, considerando a estratégia proposta e desenvolvida, foram obtidos resultados de precisão satisfatórios quanto aos termos gerados para distintos tópicos de interesse , chegando a níveis médios de precisão de 75% e 80% ao considerar 12 termos de gênero e conteúdo, respectivamente, retornados pela estratégia. No que tange às limitações dessa estratégia, é perceptível que a precisão ponderada é menor quando os documentos são inseridos no formato de URL. Isso acontece devido ao fato de que cada URL possui uma configuração específica em relação às tags HTML utilizadas em sua construção. |
metadata.dc.description.abstracten: | Thematic collectors serve the overarching purpose of gathering web pages that are relevant to a user’s specific topic of interest. In doing so, they prove valuable for a wide range of applications. In this context, an approach for thematic collection was proposed and developed in ASSIS et al.; JÚNIOR et al.(2009; 2008; 2007; 2021). This approach enables the construction of thematic collectors that conduct efficient, effective, and scalable collection processes. It allows users to express their topic of interest using terms that describe the content and genre of the desired web pages. During the experimentation carried out to validate the proposed approach, experts defined the genre and content terms used in the collection processes for each considered topic of interest. Consequently, due to the significance of defining meaningful terms for conducting collection processes relevant to the desired topic of interest, it becomes necessary to specify the initial sets of content and genre terms in a more precise, secure, and expedient manner. In this context, this work proposes the development of a strategy for semi-automatically generating initial sets of genre and content terms to be used in thematic collection processes based on genre and content. Through conducted experiments, considering the proposed and developed strategy, satisfactory precision results were achieved for the generated terms across various topics of interest. This included average precision levels of 75% and 80% when considering 12 genre and content terms, respectively, returned by the strategy. Regarding the limitations of this strategy, it is evident that the weighted precision is lower when documents are input in the URL format. This is due to the fact that each URL possesses a specific configuration with respect to the HTML tags used in its construction. |
URI: | http://www.monografias.ufop.br/handle/35400000/5886 |
Appears in Collections: | Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
MONOGRAFIA_GeraçãoSemiatomáticaConjuntos.pdf | 985,3 kB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License