Termos e relacionamentos em evidência na recuperação de informação

Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas d...

Full description

Bibliographic Details
Main Author:	Gonzalez, Marco Antonio Insaurriaga
Other Authors:	Lima, Jose Valdeni de
Format:	Others
Language:	Portuguese
Published:	2007
Subjects:	Armazenamento : Dados Recuperacao : Informacao
Online Access:	http://hdl.handle.net/10183/5962

id	ndltd-IBICT-oai-www.lume.ufrgs.br-10183-5962
record_format	oai_dc
spelling	ndltd-IBICT-oai-www.lume.ufrgs.br-10183-59622019-01-22T01:23:02Z Termos e relacionamentos em evidência na recuperação de informação Gonzalez, Marco Antonio Insaurriaga Lima, Jose Valdeni de Lima, Vera Lucia Strube de Armazenamento : Dados Recuperacao : Informacao Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI. 2007-06-06T18:51:25Z 2005 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/10183/5962 000478320 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Armazenamento : Dados Recuperacao : Informacao
spellingShingle	Armazenamento : Dados Recuperacao : Informacao Gonzalez, Marco Antonio Insaurriaga Termos e relacionamentos em evidência na recuperação de informação
description	Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
author2	Lima, Jose Valdeni de
author_facet	Lima, Jose Valdeni de Gonzalez, Marco Antonio Insaurriaga
author	Gonzalez, Marco Antonio Insaurriaga
author_sort	Gonzalez, Marco Antonio Insaurriaga
title	Termos e relacionamentos em evidência na recuperação de informação
title_short	Termos e relacionamentos em evidência na recuperação de informação
title_full	Termos e relacionamentos em evidência na recuperação de informação
title_fullStr	Termos e relacionamentos em evidência na recuperação de informação
title_full_unstemmed	Termos e relacionamentos em evidência na recuperação de informação
title_sort	termos e relacionamentos em evidência na recuperação de informação
publishDate	2007
url	http://hdl.handle.net/10183/5962
work_keys_str_mv	AT gonzalezmarcoantonioinsaurriaga termoserelacionamentosemevidencianarecuperacaodeinformacao
_version_	1718935164147466240

Termos e relacionamentos em evidência na recuperação de informação

Similar Items