Compression in Sequence to Sequence Learning for Natural Language Processing

Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats a...

Full description

Bibliographic Details
Main Author:	Prato, Gabriele
Other Authors:	Tapp, Alain
Language:	fra
Published:	2020
Subjects:	apprentissage machine apprentissage profond traitement des langues naturelles séquence à séquence compression machine learning deep learning natural language processing sequence to sequence Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Online Access:	http://hdl.handle.net/1866/23787

id	ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-23787
record_format	oai_dc
spelling	ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-237872020-07-15T07:09:31Z Compression in Sequence to Sequence Learning for Natural Language Processing Prato, Gabriele Tapp, Alain apprentissage machine apprentissage profond traitement des langues naturelles séquence à séquence compression machine learning deep learning natural language processing sequence to sequence Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4. In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4. 2020-07-10T14:58:13Z NO_RESTRICTION 2020-07-10T14:58:13Z 2020-03-25 2019-12 Thèse ou mémoire / Thesis or Dissertation http://hdl.handle.net/1866/23787 fra
collection	NDLTD
language	fra
sources	NDLTD
topic	apprentissage machine apprentissage profond traitement des langues naturelles séquence à séquence compression machine learning deep learning natural language processing sequence to sequence Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
spellingShingle	apprentissage machine apprentissage profond traitement des langues naturelles séquence à séquence compression machine learning deep learning natural language processing sequence to sequence Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) Prato, Gabriele Compression in Sequence to Sequence Learning for Natural Language Processing
description	Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4. === In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4.
author2	Tapp, Alain
author_facet	Tapp, Alain Prato, Gabriele
author	Prato, Gabriele
author_sort	Prato, Gabriele
title	Compression in Sequence to Sequence Learning for Natural Language Processing
title_short	Compression in Sequence to Sequence Learning for Natural Language Processing
title_full	Compression in Sequence to Sequence Learning for Natural Language Processing
title_fullStr	Compression in Sequence to Sequence Learning for Natural Language Processing
title_full_unstemmed	Compression in Sequence to Sequence Learning for Natural Language Processing
title_sort	compression in sequence to sequence learning for natural language processing
publishDate	2020
url	http://hdl.handle.net/1866/23787
work_keys_str_mv	AT pratogabriele compressioninsequencetosequencelearningfornaturallanguageprocessing
_version_	1719327809986363392

Compression in Sequence to Sequence Learning for Natural Language Processing

Similar Items