Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos

El objetivo general de todo sistema de Procesamiento del Lenguaje Natural (PLN) es el de obtener alguna representación del mensaje contenido de las frases. el tratamiento automático de una lengua es un problema de gran complejidad en el que intervienen diversas y complejas fuentes de conocimiento: f...

Full description

Bibliographic Details
Main Author: Pla Santamaría, Ferran
Other Authors: Prieto Saez, Natividad
Format: Doctoral Thesis
Language:Spanish
Published: Universitat Politècnica de València 2009
Subjects:
Online Access:http://hdl.handle.net/10251/5646
id ndltd-upv.es-oai-riunet.upv.es-10251-5646
record_format oai_dc
spelling ndltd-upv.es-oai-riunet.upv.es-10251-56462020-12-02T20:21:18Z Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos Pla Santamaría, Ferran Prieto Saez, Natividad Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació Lenguaje natural Lexico Aprendizaje Corpus LENGUAJES Y SISTEMAS INFORMATICOS El objetivo general de todo sistema de Procesamiento del Lenguaje Natural (PLN) es el de obtener alguna representación del mensaje contenido de las frases. el tratamiento automático de una lengua es un problema de gran complejidad en el que intervienen diversas y complejas fuentes de conocimiento: fonética, morfología, sintaxis, semántica, pragmática, conocimiento del mundo, etc. Aunque en algunos casos estas fuentes de información se pueden considerar independientes, en general, presentan una interrelación, sin la cual, no se puede conseguir una correcta interprestación del significado y de la función de las palabras de una oración. Debido a esta complejidad, para abordar el problema de comprensión de una lengua se suele seguir una de las siguientes vias: 1) Se resuelven ciertos subproblemas más sencillos que, en algunos casos, deben aportar simplificaciones para poder ser tratados de manera automática, tales como:análisis morfológico, etiquetado léxico de textos, análisis sintáctico superficial de oraciones ligamiento preposicional, sesambiguación del sentido de las palabras, tratamiento de fenómenos lingüistícos especificos como la anáfora, elipsis, etc. 2) se simplifica el lenguaje considerando tareas restringidasm en la talla del vocabulario, la complejidad de las estructuras sintácticas utilizadas o el dominio semántico de la aplicación. Durante los últimos años podemos encontrar una gran cantidad de ejemplos que toman alguna de las vías comentadas. En reconocimiento del habla hay aplicaciones que se restringen a vocabularios acotados, sonsultas a bases de datos específicas, sistemas de diálogo sobre tareas concretas, etc. En otros campos, más directamente relacionados con el PLN, encontramos aplicaciones de traducción automática, extracción y recuperación de información, resúmenes de textos, etc, en las que, en mayor o menor medida, se restringen a dominios específicos para sonseguir resultados aceptables. Por otra parte, el echo de disponer de grandes corpus de datos, textuales u orales, anotados con información lingüística de diferente naturaleza- información morfosintáctica, análisis sintáctico total o parcial, información semantica - junto con operativos, ha proporcionado la aparición y uso de aproximaciones inductivas o métodos basados en corpus, dentro del campo de la Lingüística Computacional, que aplicamos a diferentes tareas de PLN obtienen un alto grado de prestaciones. Las aproximaciones inductivas, con o sin información estadística, resultan de gran interés para conseguir la desambiguación del Lenguaje Natural (LN) ya que, además de proporcionar resultados aceptables, utilizan modelos relativamente sencillos y sus parámetros se pueden estimar a partir de datos. Esto las hace especialmente atractivas, puesto que en el cambio de una tarea a otra, o incluso de lengua, se reduce substancialmente la intervención humana. No obstante, algunos casos de ambigüedad no pueden ser resueltos de esta forma y se debe recurrir a un experto humano para introducir, por ejemplo, ciertas reglas o restricciones que ayuden a su resolución. Pla Santamaría, F. (2000). Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/5646 Palancia 2009-06-23 info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/acceptedVersion http://hdl.handle.net/10251/5646 10.4995/Thesis/10251/5646 spa http://rightsstatements.org/vocab/InC/1.0/ info:eu-repo/semantics/openAccess Universitat Politècnica de València Riunet
collection NDLTD
language Spanish
format Doctoral Thesis
sources NDLTD
topic Lenguaje natural
Lexico
Aprendizaje
Corpus
LENGUAJES Y SISTEMAS INFORMATICOS
spellingShingle Lenguaje natural
Lexico
Aprendizaje
Corpus
LENGUAJES Y SISTEMAS INFORMATICOS
Pla Santamaría, Ferran
Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
description El objetivo general de todo sistema de Procesamiento del Lenguaje Natural (PLN) es el de obtener alguna representación del mensaje contenido de las frases. el tratamiento automático de una lengua es un problema de gran complejidad en el que intervienen diversas y complejas fuentes de conocimiento: fonética, morfología, sintaxis, semántica, pragmática, conocimiento del mundo, etc. Aunque en algunos casos estas fuentes de información se pueden considerar independientes, en general, presentan una interrelación, sin la cual, no se puede conseguir una correcta interprestación del significado y de la función de las palabras de una oración. Debido a esta complejidad, para abordar el problema de comprensión de una lengua se suele seguir una de las siguientes vias: 1) Se resuelven ciertos subproblemas más sencillos que, en algunos casos, deben aportar simplificaciones para poder ser tratados de manera automática, tales como:análisis morfológico, etiquetado léxico de textos, análisis sintáctico superficial de oraciones ligamiento preposicional, sesambiguación del sentido de las palabras, tratamiento de fenómenos lingüistícos especificos como la anáfora, elipsis, etc. 2) se simplifica el lenguaje considerando tareas restringidasm en la talla del vocabulario, la complejidad de las estructuras sintácticas utilizadas o el dominio semántico de la aplicación. Durante los últimos años podemos encontrar una gran cantidad de ejemplos que toman alguna de las vías comentadas. En reconocimiento del habla hay aplicaciones que se restringen a vocabularios acotados, sonsultas a bases de datos específicas, sistemas de diálogo sobre tareas concretas, etc. En otros campos, más directamente relacionados con el PLN, encontramos aplicaciones de traducción automática, extracción y recuperación de información, resúmenes de textos, etc, en las que, en mayor o menor medida, se restringen a dominios específicos para sonseguir resultados aceptables. Por otra parte, el echo de disponer de grandes corpus de datos, textuales u orales, anotados con información lingüística de diferente naturaleza- información morfosintáctica, análisis sintáctico total o parcial, información semantica - junto con operativos, ha proporcionado la aparición y uso de aproximaciones inductivas o métodos basados en corpus, dentro del campo de la Lingüística Computacional, que aplicamos a diferentes tareas de PLN obtienen un alto grado de prestaciones. Las aproximaciones inductivas, con o sin información estadística, resultan de gran interés para conseguir la desambiguación del Lenguaje Natural (LN) ya que, además de proporcionar resultados aceptables, utilizan modelos relativamente sencillos y sus parámetros se pueden estimar a partir de datos. Esto las hace especialmente atractivas, puesto que en el cambio de una tarea a otra, o incluso de lengua, se reduce substancialmente la intervención humana. No obstante, algunos casos de ambigüedad no pueden ser resueltos de esta forma y se debe recurrir a un experto humano para introducir, por ejemplo, ciertas reglas o restricciones que ayuden a su resolución. === Pla Santamaría, F. (2000). Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/5646 === Palancia
author2 Prieto Saez, Natividad
author_facet Prieto Saez, Natividad
Pla Santamaría, Ferran
author Pla Santamaría, Ferran
author_sort Pla Santamaría, Ferran
title Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
title_short Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
title_full Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
title_fullStr Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
title_full_unstemmed Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
title_sort etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos
publisher Universitat Politècnica de València
publishDate 2009
url http://hdl.handle.net/10251/5646
work_keys_str_mv AT plasantamariaferran etiquetadolexicoyanalisissintacticosuperficialbasadoenmodelosestadisticos
_version_ 1719367044941479936