Espaces de timbre générés par des réseaux profonds convolutionnels

Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles prof...

Full description

Bibliographic Details
Main Author: Lemieux, Simon
Other Authors: Eck, Douglas
Language:fr
Published: 2012
Subjects:
Online Access:http://hdl.handle.net/1866/6294
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-6294
record_format oai_dc
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-62942017-03-17T08:14:11Z Espaces de timbre générés par des réseaux profonds convolutionnels Lemieux, Simon Eck, Douglas Espace de timbre Machine de Boltzmann convolutionnelle Apprentissage machine Génération automatique de timbres Architectures profondes Extraction de caractéristiques Space timbre Convolutional boltzmann machines Machine learning Automatic timbre generation Deep architectures Feature extraction Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher. This thesis presents a novel way of modelling timbre using machine learning algorithms. More precisely, we have attempted to build a timbre space by extracting audio features using deep-convolutional Boltzmann machines. We first present an overview of machine learning with an emphasis on convolutional Boltzmann machines as well as models from which they are derived. We also present a summary of the literature relevant to timbre spaces and highlight their limitations, such as the small number of timbres used to build them. To address this problem, we have developed a sound generation tool that can generate as many sounds as we wish. At the system's core are plug-ins that are parameterizable and that we can combine to create a virtually infinite range of sounds. We use it to build a massive randomly generated timbre dataset that is made up of real and synthesized instruments. We then train deep-convolutional Boltzmann machines on those timbres in an unsupervised way and use the produced feature space as a timbre space. The timbre space we obtain is a better space than a similar space built using MFCCs. We consider it as better in the sense that the distance between two timbres in that space is more similar to the one perceived by a human listener. However, we are far from reaching the performance of a human. We finish by proposing possible improvements that could be tried to close our performance gap. 2012-02-28T21:07:28Z NO_RESTRICTION 2012-02-28T21:07:28Z 2012-02-02 2011-08 Thèse ou Mémoire numérique / Electronic Thesis or Dissertation http://hdl.handle.net/1866/6294 fr
collection NDLTD
language fr
sources NDLTD
topic Espace de timbre
Machine de Boltzmann convolutionnelle
Apprentissage machine
Génération automatique de timbres
Architectures profondes
Extraction de caractéristiques
Space timbre
Convolutional boltzmann machines
Machine learning
Automatic timbre generation
Deep architectures
Feature extraction
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
spellingShingle Espace de timbre
Machine de Boltzmann convolutionnelle
Apprentissage machine
Génération automatique de timbres
Architectures profondes
Extraction de caractéristiques
Space timbre
Convolutional boltzmann machines
Machine learning
Automatic timbre generation
Deep architectures
Feature extraction
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Lemieux, Simon
Espaces de timbre générés par des réseaux profonds convolutionnels
description Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher. === This thesis presents a novel way of modelling timbre using machine learning algorithms. More precisely, we have attempted to build a timbre space by extracting audio features using deep-convolutional Boltzmann machines. We first present an overview of machine learning with an emphasis on convolutional Boltzmann machines as well as models from which they are derived. We also present a summary of the literature relevant to timbre spaces and highlight their limitations, such as the small number of timbres used to build them. To address this problem, we have developed a sound generation tool that can generate as many sounds as we wish. At the system's core are plug-ins that are parameterizable and that we can combine to create a virtually infinite range of sounds. We use it to build a massive randomly generated timbre dataset that is made up of real and synthesized instruments. We then train deep-convolutional Boltzmann machines on those timbres in an unsupervised way and use the produced feature space as a timbre space. The timbre space we obtain is a better space than a similar space built using MFCCs. We consider it as better in the sense that the distance between two timbres in that space is more similar to the one perceived by a human listener. However, we are far from reaching the performance of a human. We finish by proposing possible improvements that could be tried to close our performance gap.
author2 Eck, Douglas
author_facet Eck, Douglas
Lemieux, Simon
author Lemieux, Simon
author_sort Lemieux, Simon
title Espaces de timbre générés par des réseaux profonds convolutionnels
title_short Espaces de timbre générés par des réseaux profonds convolutionnels
title_full Espaces de timbre générés par des réseaux profonds convolutionnels
title_fullStr Espaces de timbre générés par des réseaux profonds convolutionnels
title_full_unstemmed Espaces de timbre générés par des réseaux profonds convolutionnels
title_sort espaces de timbre générés par des réseaux profonds convolutionnels
publishDate 2012
url http://hdl.handle.net/1866/6294
work_keys_str_mv AT lemieuxsimon espacesdetimbregenerespardesreseauxprofondsconvolutionnels
_version_ 1718425008605233152