Algoritmo para el análisis temático de documentos digitales

El objetivo del artículo es presentar un algoritmo para asignar áreas temáticas a documentos digitales que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información, con el fin de ser implementado en el desarrollo de vocabularios controlados. La metodología uti...

Full description

Bibliographic Details
Main Authors: Luis Roberto Polo Bautista, Karen Vanessa Martínez Acevedo
Format: Article
Language:English
Published: Universidad Nacional Autónoma de México 2021-10-01
Series:Investigación Bibliotecológica: Archivonomía, Bibliotecología e Información
Subjects:
Online Access:http://rev-ib.unam.mx/ib/index.php/ib/article/view/58419/52185
id doaj-6a1a5c3237c844eda361d1cec30e5d89
record_format Article
spelling doaj-6a1a5c3237c844eda361d1cec30e5d892021-09-28T20:32:58ZengUniversidad Nacional Autónoma de MéxicoInvestigación Bibliotecológica: Archivonomía, Bibliotecología e Información0187-358X2448-83212021-10-013589133110.22201/iibi.24488321xe.2021.89.58419Algoritmo para el análisis temático de documentos digitalesLuis Roberto Polo Bautista 0https://orcid.org/0000-0002-0421-1126Karen Vanessa Martínez Acevedo1https://orcid.org/0000-0002-2595-149XEscuela Nacional de Biblioteconomía y Archivonomía, Instituto Politécnico Nacional MéxicoEscuela Nacional de Biblioteconomía y Archivonomía, Instituto Politécnico Nacional MéxicoEl objetivo del artículo es presentar un algoritmo para asignar áreas temáticas a documentos digitales que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información, con el fin de ser implementado en el desarrollo de vocabularios controlados. La metodología utilizada consistió en aplicar el Reconocimiento Óptico de Caracteres (ROC) y la Asignación Latente de Dirichlet (ALD) como las principales herramientas para el desarrollo de un algoritmo basado en el lenguaje de programación Python, que permite la lectura de archivos con extensión PDF para la obtención de los principales temas del corpus textual. Los resultados de la aplicación del algoritmo demuestran su utilidad en el área de la indización como un sistema para identificar y extraer temas relevantes de un documento específico en formato electrónico, permitiendo la automatización de procesos por parte del profesional de la información. De esta forma, se concluye su uso como desarrollo de puntos de acceso alternativos en función del contenido de los textos.http://rev-ib.unam.mx/ib/index.php/ib/article/view/58419/52185asignación latente de dirichletalgoritmosanálisis temáticodocumentos digitales
collection DOAJ
language English
format Article
sources DOAJ
author Luis Roberto Polo Bautista
Karen Vanessa Martínez Acevedo
spellingShingle Luis Roberto Polo Bautista
Karen Vanessa Martínez Acevedo
Algoritmo para el análisis temático de documentos digitales
Investigación Bibliotecológica: Archivonomía, Bibliotecología e Información
asignación latente de dirichlet
algoritmos
análisis temático
documentos digitales
author_facet Luis Roberto Polo Bautista
Karen Vanessa Martínez Acevedo
author_sort Luis Roberto Polo Bautista
title Algoritmo para el análisis temático de documentos digitales
title_short Algoritmo para el análisis temático de documentos digitales
title_full Algoritmo para el análisis temático de documentos digitales
title_fullStr Algoritmo para el análisis temático de documentos digitales
title_full_unstemmed Algoritmo para el análisis temático de documentos digitales
title_sort algoritmo para el análisis temático de documentos digitales
publisher Universidad Nacional Autónoma de México
series Investigación Bibliotecológica: Archivonomía, Bibliotecología e Información
issn 0187-358X
2448-8321
publishDate 2021-10-01
description El objetivo del artículo es presentar un algoritmo para asignar áreas temáticas a documentos digitales que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información, con el fin de ser implementado en el desarrollo de vocabularios controlados. La metodología utilizada consistió en aplicar el Reconocimiento Óptico de Caracteres (ROC) y la Asignación Latente de Dirichlet (ALD) como las principales herramientas para el desarrollo de un algoritmo basado en el lenguaje de programación Python, que permite la lectura de archivos con extensión PDF para la obtención de los principales temas del corpus textual. Los resultados de la aplicación del algoritmo demuestran su utilidad en el área de la indización como un sistema para identificar y extraer temas relevantes de un documento específico en formato electrónico, permitiendo la automatización de procesos por parte del profesional de la información. De esta forma, se concluye su uso como desarrollo de puntos de acceso alternativos en función del contenido de los textos.
topic asignación latente de dirichlet
algoritmos
análisis temático
documentos digitales
url http://rev-ib.unam.mx/ib/index.php/ib/article/view/58419/52185
work_keys_str_mv AT luisrobertopolobautista algoritmoparaelanalisistematicodedocumentosdigitales
AT karenvanessamartinezacevedo algoritmoparaelanalisistematicodedocumentosdigitales
_version_ 1716865149303783424