Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio

Orientador: Siome Klein Goldenstein === Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-17T03:15:16Z (GMT). No. of bitstreams: 1 Costa_GlauberdeOliveira_M.pdf: 17659239 bytes, checksum: 5e50f48bdc78f7e7a59d4904e9e05b76 (MD5)...

Full description

Bibliographic Details
Main Author: Costa, Glauber de Oliveira
Other Authors: UNIVERSIDADE ESTADUAL DE CAMPINAS
Format: Others
Language:Portuguese
Published: [s.n.] 2010
Subjects:
Online Access:COSTA, Glauber de Oliveira. Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio. 2010. 81 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275785>. Acesso em: 17 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/275785
id ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-275785
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Categorização de imagens
Visão por computador
Recuperação da informação
Image categorization
Computer vision
Information retrieval
spellingShingle Categorização de imagens
Visão por computador
Recuperação da informação
Image categorization
Computer vision
Information retrieval
Costa, Glauber de Oliveira
Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio
description Orientador: Siome Klein Goldenstein === Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-17T03:15:16Z (GMT). No. of bitstreams: 1 Costa_GlauberdeOliveira_M.pdf: 17659239 bytes, checksum: 5e50f48bdc78f7e7a59d4904e9e05b76 (MD5) Previous issue date: 2010 === Resumo: Com o crescimento das bases de imagem digitais, motivado principalmente pela popularização da World Wide Web, bem como a massificação de dispositivos de captura digital de imagens, o processamento e extração de informações semânticas destas imagens cresce em importância. A informação encerrada nestas imagens não tem significado semântico imediato, sendo necessário o uso de técnicas para capturá-la. A abordagem trivial, que envolve a anotação das imagens por humanos se torna falha à medida que o tamanho das bases cresce, sendo necessário voltar-se para métodos mais sofisticados. Esta dissertação estudou a aplicação do método Latent Dirichlet Allocation em bases de imagens digitais, verificando a performance do algoritmo utilizando quatro métodos distintos de criação de dicionários visuais. Este trabalho mostrou que a combinação de diferentes descritores capturando aspectos distintos das imagens, para a construção de classificadores pelo método Latent Dirichlet Allocation é capaz de obter taxas de acerto médias na faixa de 90%, ainda que cada classificador individualmente não tenha desempenho muito superior à chance. Ainda, os experimentos realizados demonstraram que a influência do tamanho do dicionário e número de tópicos não é significativa, sendo possível construir classificadores com poucos tópicos latentes a partir de poucas palavras visuais, e portanto, eficientes. === Abstract: With the growth of digital image databases, mainly motivated by the spread of the World Wide Web and digital capture devices, processing and extraction of semantic information from these images gain importance. The information contained within these images have no immediate semantic meaning and techniques must be used in order to acquire it. The trivial approach, which involves the manual annotation of the images by humans, becomes flawed as the size of the database grows. Using a more sophisticated method is needed. This work studied applications of the Latent Dirichlet Allocation method for digital image databases, verifying the algorithm's performance using four different methods of codewords dictionary generation. It shows that a combination of different descriptors capturing different aspects of the images, aiming at the construction of Latent Dirichlet Allocation -based classifiers, is capable of achieving hit ratios around 90%, even if each of the individual classifiers isn't largely superior to chance. Yet, experiments performed during this work demonstrated that the influence of the codewords dictionary size and the number of topics in the model are not significant, making the construction of small-sized, and thus, efficient classifiers possible. === Mestrado === Visão Computacional === Mestre em Ciência da Computação
author2 UNIVERSIDADE ESTADUAL DE CAMPINAS
author_facet UNIVERSIDADE ESTADUAL DE CAMPINAS
Costa, Glauber de Oliveira
author Costa, Glauber de Oliveira
author_sort Costa, Glauber de Oliveira
title Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio
title_short Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio
title_full Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio
title_fullStr Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio
title_full_unstemmed Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio
title_sort um estudo sobre categorização de mídias através do método de latent dirichlet allocatio
publisher [s.n.]
publishDate 2010
url COSTA, Glauber de Oliveira. Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio. 2010. 81 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275785>. Acesso em: 17 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/275785
work_keys_str_mv AT costaglauberdeoliveira umestudosobrecategorizacaodemidiasatravesdometododelatentdirichletallocatio
AT costaglauberdeoliveira astudyonmediacategorizationusingthelatentdirichletallocationmethod
_version_ 1718881483533320192
spelling ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-2757852019-01-21T21:10:12Z Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio A study on media categorization using the latent Dirichlet allocation method Costa, Glauber de Oliveira UNIVERSIDADE ESTADUAL DE CAMPINAS Goldenstein, Siome Klein, 1972- Campos, Mario Fernando Montenegro Leite, Neucimar Jerônimo Categorização de imagens Visão por computador Recuperação da informação Image categorization Computer vision Information retrieval Orientador: Siome Klein Goldenstein Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-17T03:15:16Z (GMT). No. of bitstreams: 1 Costa_GlauberdeOliveira_M.pdf: 17659239 bytes, checksum: 5e50f48bdc78f7e7a59d4904e9e05b76 (MD5) Previous issue date: 2010 Resumo: Com o crescimento das bases de imagem digitais, motivado principalmente pela popularização da World Wide Web, bem como a massificação de dispositivos de captura digital de imagens, o processamento e extração de informações semânticas destas imagens cresce em importância. A informação encerrada nestas imagens não tem significado semântico imediato, sendo necessário o uso de técnicas para capturá-la. A abordagem trivial, que envolve a anotação das imagens por humanos se torna falha à medida que o tamanho das bases cresce, sendo necessário voltar-se para métodos mais sofisticados. Esta dissertação estudou a aplicação do método Latent Dirichlet Allocation em bases de imagens digitais, verificando a performance do algoritmo utilizando quatro métodos distintos de criação de dicionários visuais. Este trabalho mostrou que a combinação de diferentes descritores capturando aspectos distintos das imagens, para a construção de classificadores pelo método Latent Dirichlet Allocation é capaz de obter taxas de acerto médias na faixa de 90%, ainda que cada classificador individualmente não tenha desempenho muito superior à chance. Ainda, os experimentos realizados demonstraram que a influência do tamanho do dicionário e número de tópicos não é significativa, sendo possível construir classificadores com poucos tópicos latentes a partir de poucas palavras visuais, e portanto, eficientes. Abstract: With the growth of digital image databases, mainly motivated by the spread of the World Wide Web and digital capture devices, processing and extraction of semantic information from these images gain importance. The information contained within these images have no immediate semantic meaning and techniques must be used in order to acquire it. The trivial approach, which involves the manual annotation of the images by humans, becomes flawed as the size of the database grows. Using a more sophisticated method is needed. This work studied applications of the Latent Dirichlet Allocation method for digital image databases, verifying the algorithm's performance using four different methods of codewords dictionary generation. It shows that a combination of different descriptors capturing different aspects of the images, aiming at the construction of Latent Dirichlet Allocation -based classifiers, is capable of achieving hit ratios around 90%, even if each of the individual classifiers isn't largely superior to chance. Yet, experiments performed during this work demonstrated that the influence of the codewords dictionary size and the number of topics in the model are not significant, making the construction of small-sized, and thus, efficient classifiers possible. Mestrado Visão Computacional Mestre em Ciência da Computação 2010 2018-08-17T03:15:16Z 2018-08-17T03:15:16Z 2010-12-07T00:00:00Z info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis COSTA, Glauber de Oliveira. Um estudo sobre categorização de mídias através do método de Latent Dirichlet Allocatio. 2010. 81 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275785>. Acesso em: 17 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275785 por info:eu-repo/semantics/openAccess 81 f. : il. application/octet-stream [s.n.] Universidade Estadual de Campinas. Instituto de Computação Programa de Pós-Graduação em Ciência da Computação reponame:Repositório Institucional da Unicamp instname:Universidade Estadual de Campinas instacron:UNICAMP