Extração de relações semanticas via análise de correlação de termos em documentos

Orientador: Ivan Luiz Marques Ricarte === Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação === Made available in DSpace on 2018-08-12T17:41:25Z (GMT). No. of bitstreams: 1 Botero_SergioWilliam_M.pdf: 2163763 bytes, checksum: a7c5db625a3d99c...

Full description

Bibliographic Details
Main Author: Botero, Sergio William
Other Authors: UNIVERSIDADE ESTADUAL DE CAMPINAS
Format: Others
Language:Portuguese
Published: [s.n.] 2008
Subjects:
Online Access:BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/259205>. Acesso em: 12 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/259205
id ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-259205
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Processamento de textos (Computação)
Semântica
Recuperação da informação
Sistemas de recuperação da informação
Ontologia
Text processing (Computation)
Semantic
Information retrieval
Information retrieval system
Ontology
spellingShingle Processamento de textos (Computação)
Semântica
Recuperação da informação
Sistemas de recuperação da informação
Ontologia
Text processing (Computation)
Semantic
Information retrieval
Information retrieval system
Ontology
Botero, Sergio William
Extração de relações semanticas via análise de correlação de termos em documentos
description Orientador: Ivan Luiz Marques Ricarte === Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação === Made available in DSpace on 2018-08-12T17:41:25Z (GMT). No. of bitstreams: 1 Botero_SergioWilliam_M.pdf: 2163763 bytes, checksum: a7c5db625a3d99cead80cee63b7908ce (MD5) Previous issue date: 2008 === Resumo: Sistemas de recuperação de informação são ferramentas para automatizar os procedimentos de busca por informações. Surgiram com propostas simples nas quais a recuperação era baseada exclusivamente na sintaxe das palavras e evoluíram para sistemas baseados na semântica das palavras como, por exemplo, os que utilizam ontologias. Entretanto, a especificação manual de ontologias é uma tarefa extremamente custosa e sujeita a erros humanos. Métodos automáticos para a construção de ontologias mostraram-se ineficientes, identificando falsas relações semânticas. O presente trabalho apresenta uma técnica baseada em processamento de linguagem natural e um novo algoritmo de agrupamento para a extração semi-automática de relações que utiliza o conteúdo dos documentos, uma ontologia de senso comum e supervisão do usuário para identificar corretamente as relações semânticas. A proposta envolve um estágio que utiliza recursos lingüísticos para a extração de termos e outro que utiliza algoritmos de agrupamento para a identificação de conceitos e relações semânticas de instanciação entre termos e conceitos. O algoritmo proposto é baseado em técnicas de agrupamento possibilístico e de bi-agrupamento e permite a extração interativa de conceitos e relações. Os resultados são promissores, similares às metodologias mais recentes, com a vantagem de permitir a supervisão do processo de extração === Abstract: Information Retrieval systems are tools to automate the searching for information. The first implementations were very simple, based exclusively on word syntax, and have evolved to systems that use semantic knowledge such as those using ontologies. However, the manual specification is an expensive task and subject to human mistakes. In order to deal with this problem, methodologies that automatically construct ontologies have been proposed but they did not reach good results, identifying false semantic relation between words. This work presents a natural language processing technique e a new clustering algorithm for the semi-automatic extraction of semantic relations by using the content of the document, a commom-sense ontology, and the supervision of the user to correctly identify semantic relations. The proposal encompasses a stage that uses linguistic resources to extract the terms and another stage that uses clustering algorithms to identify concepts and instanceof relations between terms and concepts. The proposed algorithm is based on possibilistic clustering and bi-clustering techniques and it allows the interative extraction of concepts. The results are promising, similar to the most recent methodologies, with the advantage of allowing the supervision of the extraction process === Mestrado === Engenharia de Computação === Mestre em Engenharia Elétrica
author2 UNIVERSIDADE ESTADUAL DE CAMPINAS
author_facet UNIVERSIDADE ESTADUAL DE CAMPINAS
Botero, Sergio William
author Botero, Sergio William
author_sort Botero, Sergio William
title Extração de relações semanticas via análise de correlação de termos em documentos
title_short Extração de relações semanticas via análise de correlação de termos em documentos
title_full Extração de relações semanticas via análise de correlação de termos em documentos
title_fullStr Extração de relações semanticas via análise de correlação de termos em documentos
title_full_unstemmed Extração de relações semanticas via análise de correlação de termos em documentos
title_sort extração de relações semanticas via análise de correlação de termos em documentos
publisher [s.n.]
publishDate 2008
url BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/259205>. Acesso em: 12 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/259205
work_keys_str_mv AT boterosergiowilliam extracaoderelacoessemanticasviaanalisedecorrelacaodetermosemdocumentos
AT boterosergiowilliam extractingsemanticrelationsviaanalysisofcorrelatedtermsindocuments
_version_ 1718879880015249408
spelling ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-2592052019-01-21T21:02:09Z Extração de relações semanticas via análise de correlação de termos em documentos Extracting semantic relations via analysis of correlated terms in documents Botero, Sergio William UNIVERSIDADE ESTADUAL DE CAMPINAS Ricarte, Ivan Luiz Marques, 1962- Aluísio, Sandra Maria Zuben, Fernando Jose Von Processamento de textos (Computação) Semântica Recuperação da informação Sistemas de recuperação da informação Ontologia Text processing (Computation) Semantic Information retrieval Information retrieval system Ontology Orientador: Ivan Luiz Marques Ricarte Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação Made available in DSpace on 2018-08-12T17:41:25Z (GMT). No. of bitstreams: 1 Botero_SergioWilliam_M.pdf: 2163763 bytes, checksum: a7c5db625a3d99cead80cee63b7908ce (MD5) Previous issue date: 2008 Resumo: Sistemas de recuperação de informação são ferramentas para automatizar os procedimentos de busca por informações. Surgiram com propostas simples nas quais a recuperação era baseada exclusivamente na sintaxe das palavras e evoluíram para sistemas baseados na semântica das palavras como, por exemplo, os que utilizam ontologias. Entretanto, a especificação manual de ontologias é uma tarefa extremamente custosa e sujeita a erros humanos. Métodos automáticos para a construção de ontologias mostraram-se ineficientes, identificando falsas relações semânticas. O presente trabalho apresenta uma técnica baseada em processamento de linguagem natural e um novo algoritmo de agrupamento para a extração semi-automática de relações que utiliza o conteúdo dos documentos, uma ontologia de senso comum e supervisão do usuário para identificar corretamente as relações semânticas. A proposta envolve um estágio que utiliza recursos lingüísticos para a extração de termos e outro que utiliza algoritmos de agrupamento para a identificação de conceitos e relações semânticas de instanciação entre termos e conceitos. O algoritmo proposto é baseado em técnicas de agrupamento possibilístico e de bi-agrupamento e permite a extração interativa de conceitos e relações. Os resultados são promissores, similares às metodologias mais recentes, com a vantagem de permitir a supervisão do processo de extração Abstract: Information Retrieval systems are tools to automate the searching for information. The first implementations were very simple, based exclusively on word syntax, and have evolved to systems that use semantic knowledge such as those using ontologies. However, the manual specification is an expensive task and subject to human mistakes. In order to deal with this problem, methodologies that automatically construct ontologies have been proposed but they did not reach good results, identifying false semantic relation between words. This work presents a natural language processing technique e a new clustering algorithm for the semi-automatic extraction of semantic relations by using the content of the document, a commom-sense ontology, and the supervision of the user to correctly identify semantic relations. The proposal encompasses a stage that uses linguistic resources to extract the terms and another stage that uses clustering algorithms to identify concepts and instanceof relations between terms and concepts. The proposed algorithm is based on possibilistic clustering and bi-clustering techniques and it allows the interative extraction of concepts. The results are promising, similar to the most recent methodologies, with the advantage of allowing the supervision of the extraction process Mestrado Engenharia de Computação Mestre em Engenharia Elétrica 2008 2018-08-12T17:41:25Z 2018-08-12T17:41:25Z 2008-12-12T00:00:00Z info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/259205>. Acesso em: 12 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/259205 por info:eu-repo/semantics/openAccess 145 p. : il. application/pdf [s.n.] Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação Programa de Pós-Graduação em Engenharia Elétrica reponame:Repositório Institucional da Unicamp instname:Universidade Estadual de Campinas instacron:UNICAMP