Compression in Sequence to Sequence Learning for Natural Language Processing

Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats a...

Full description

Bibliographic Details
Main Author: Prato, Gabriele
Other Authors: Tapp, Alain
Language:fra
Published: 2020
Subjects:
Online Access:http://hdl.handle.net/1866/23787
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-23787
record_format oai_dc
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-237872020-07-15T07:09:31Z Compression in Sequence to Sequence Learning for Natural Language Processing Prato, Gabriele Tapp, Alain apprentissage machine apprentissage profond traitement des langues naturelles séquence à séquence compression machine learning deep learning natural language processing sequence to sequence Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4. In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4. 2020-07-10T14:58:13Z NO_RESTRICTION 2020-07-10T14:58:13Z 2020-03-25 2019-12 Thèse ou mémoire / Thesis or Dissertation http://hdl.handle.net/1866/23787 fra
collection NDLTD
language fra
sources NDLTD
topic apprentissage machine
apprentissage profond
traitement des langues naturelles
séquence à séquence
compression
machine learning
deep learning
natural language processing
sequence to sequence
Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
spellingShingle apprentissage machine
apprentissage profond
traitement des langues naturelles
séquence à séquence
compression
machine learning
deep learning
natural language processing
sequence to sequence
Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Prato, Gabriele
Compression in Sequence to Sequence Learning for Natural Language Processing
description Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4. === In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4.
author2 Tapp, Alain
author_facet Tapp, Alain
Prato, Gabriele
author Prato, Gabriele
author_sort Prato, Gabriele
title Compression in Sequence to Sequence Learning for Natural Language Processing
title_short Compression in Sequence to Sequence Learning for Natural Language Processing
title_full Compression in Sequence to Sequence Learning for Natural Language Processing
title_fullStr Compression in Sequence to Sequence Learning for Natural Language Processing
title_full_unstemmed Compression in Sequence to Sequence Learning for Natural Language Processing
title_sort compression in sequence to sequence learning for natural language processing
publishDate 2020
url http://hdl.handle.net/1866/23787
work_keys_str_mv AT pratogabriele compressioninsequencetosequencelearningfornaturallanguageprocessing
_version_ 1719327809986363392