Espaces de timbre générés par des réseaux profonds convolutionnels

Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles prof...

Full description

Bibliographic Details
Main Author:	Lemieux, Simon
Other Authors:	Eck, Douglas
Language:	fr
Published:	2012
Subjects:	Espace de timbre Machine de Boltzmann convolutionnelle Apprentissage machine Génération automatique de timbres Architectures profondes Extraction de caractéristiques Space timbre Convolutional boltzmann machines Machine learning Automatic timbre generation Deep architectures Feature extraction Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Online Access:	http://hdl.handle.net/1866/6294

id	ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-6294
record_format	oai_dc
spelling	ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-62942017-03-17T08:14:11Z Espaces de timbre générés par des réseaux profonds convolutionnels Lemieux, Simon Eck, Douglas Espace de timbre Machine de Boltzmann convolutionnelle Apprentissage machine Génération automatique de timbres Architectures profondes Extraction de caractéristiques Space timbre Convolutional boltzmann machines Machine learning Automatic timbre generation Deep architectures Feature extraction Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher. This thesis presents a novel way of modelling timbre using machine learning algorithms. More precisely, we have attempted to build a timbre space by extracting audio features using deep-convolutional Boltzmann machines. We first present an overview of machine learning with an emphasis on convolutional Boltzmann machines as well as models from which they are derived. We also present a summary of the literature relevant to timbre spaces and highlight their limitations, such as the small number of timbres used to build them. To address this problem, we have developed a sound generation tool that can generate as many sounds as we wish. At the system's core are plug-ins that are parameterizable and that we can combine to create a virtually infinite range of sounds. We use it to build a massive randomly generated timbre dataset that is made up of real and synthesized instruments. We then train deep-convolutional Boltzmann machines on those timbres in an unsupervised way and use the produced feature space as a timbre space. The timbre space we obtain is a better space than a similar space built using MFCCs. We consider it as better in the sense that the distance between two timbres in that space is more similar to the one perceived by a human listener. However, we are far from reaching the performance of a human. We finish by proposing possible improvements that could be tried to close our performance gap. 2012-02-28T21:07:28Z NO_RESTRICTION 2012-02-28T21:07:28Z 2012-02-02 2011-08 Thèse ou Mémoire numérique / Electronic Thesis or Dissertation http://hdl.handle.net/1866/6294 fr
collection	NDLTD
language	fr
sources	NDLTD
topic	Espace de timbre Machine de Boltzmann convolutionnelle Apprentissage machine Génération automatique de timbres Architectures profondes Extraction de caractéristiques Space timbre Convolutional boltzmann machines Machine learning Automatic timbre generation Deep architectures Feature extraction Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
spellingShingle	Espace de timbre Machine de Boltzmann convolutionnelle Apprentissage machine Génération automatique de timbres Architectures profondes Extraction de caractéristiques Space timbre Convolutional boltzmann machines Machine learning Automatic timbre generation Deep architectures Feature extraction Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) Lemieux, Simon Espaces de timbre générés par des réseaux profonds convolutionnels
description	Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher. === This thesis presents a novel way of modelling timbre using machine learning algorithms. More precisely, we have attempted to build a timbre space by extracting audio features using deep-convolutional Boltzmann machines. We first present an overview of machine learning with an emphasis on convolutional Boltzmann machines as well as models from which they are derived. We also present a summary of the literature relevant to timbre spaces and highlight their limitations, such as the small number of timbres used to build them. To address this problem, we have developed a sound generation tool that can generate as many sounds as we wish. At the system's core are plug-ins that are parameterizable and that we can combine to create a virtually infinite range of sounds. We use it to build a massive randomly generated timbre dataset that is made up of real and synthesized instruments. We then train deep-convolutional Boltzmann machines on those timbres in an unsupervised way and use the produced feature space as a timbre space. The timbre space we obtain is a better space than a similar space built using MFCCs. We consider it as better in the sense that the distance between two timbres in that space is more similar to the one perceived by a human listener. However, we are far from reaching the performance of a human. We finish by proposing possible improvements that could be tried to close our performance gap.
author2	Eck, Douglas
author_facet	Eck, Douglas Lemieux, Simon
author	Lemieux, Simon
author_sort	Lemieux, Simon
title	Espaces de timbre générés par des réseaux profonds convolutionnels
title_short	Espaces de timbre générés par des réseaux profonds convolutionnels
title_full	Espaces de timbre générés par des réseaux profonds convolutionnels
title_fullStr	Espaces de timbre générés par des réseaux profonds convolutionnels
title_full_unstemmed	Espaces de timbre générés par des réseaux profonds convolutionnels
title_sort	espaces de timbre générés par des réseaux profonds convolutionnels
publishDate	2012
url	http://hdl.handle.net/1866/6294
work_keys_str_mv	AT lemieuxsimon espacesdetimbregenerespardesreseauxprofondsconvolutionnels
_version_	1718425008605233152

Espaces de timbre générés par des réseaux profonds convolutionnels

Similar Items