Statistical Machine Translation of the Arabic Language

La traduction automatique de texte arabe a reçu beaucoup d'attention au cours de la dernière décennie. La langue arabe, langue officielle de plus de 25 pays, est parlée par plus de 290 millions de personnes. Les changements politiques engendrés par les révolutions arabes ont mis sur le devant d...

Full description

Bibliographic Details
Main Author: Aransa, Walid
Other Authors: Le Mans
Language:en
Published: 2015
Subjects:
SMT
Online Access:http://www.theses.fr/2015LEMA1018/document
id ndltd-theses.fr-2015LEMA1018
record_format oai_dc
spelling ndltd-theses.fr-2015LEMA10182017-12-20T04:33:07Z Statistical Machine Translation of the Arabic Language Traduction automatique statistique de la langue arabe Traduction Automatique Statistique Langue Arabe SMT Anglais Modèle Statistical Machine Translation Arabic Language English Model 418.028 563 5 La traduction automatique de texte arabe a reçu beaucoup d'attention au cours de la dernière décennie. La langue arabe, langue officielle de plus de 25 pays, est parlée par plus de 290 millions de personnes. Les changements politiques engendrés par les révolutions arabes ont mis sur le devant de la scène cette langue et ses multiples dialectes. Ce travail s'inscrit dans le cadre du projet BOLT dont le but est d'améliorer les performances des systèmes de traduction arabe-anglais pour des domaines spécifiques (SMS, parole conversationnelle, etc.)Dans cette thèse, j'ai enrichi le système de traduction à base de segments du LIUM à maints égards. Les systèmes à base de segments fournissent actuellement les meilleures performances. Ces systèmes sont basés sur deux modèles statistiques : le modèle de traduction et le modèle de langage. Dans l'objectif d’améliorer la qualité de traduction de l'arabe, nous avons mis l'accent sur trois aspects. Le premier aspect est la réduction des mots inconnus dans la sortie de traduction. Le second aspect de mon travail de thèse est l'adaptation au domaine ou à la tâche de la table de traduction. Finalement, je me suis intéressé à l'amélioration de la modélisation linguistique avec des réseaux de neurones. Ces modèles sont utilisés pour re-évaluer les n-meilleures hypothèses de traduction.Toutes les techniques développées ont été minutieusement incorporées dans le système du LIUM et évaluées dans trois campagnes d’évaluation internationales dans le cadre du projet BOLT. The Arabic language received a lot of attention in the machine translation community during the last decade. It is the official language of 25 countries and it is spoken by more than 380 million people. The interest in Arabic language and its dialects increased more after the Arab spring and the political change in the Arab countries. In this thesis, I worked on improving LIUM's machine translation system for Arabic-English in the frame-work of the BOLT project.In this thesis, I have extend LIUM's phrase-based statistical machine translation system in many ways. Phrase-based systems are considered to be one of the best performing approaches. Basically, two probabilistic models are used, a translation model and a language model.I have been working on improving the translation quality. This is done by focusing on three different aspects. The first aspect is reducing the number of unknown words in the translated output. Second, the entities like numbers or dates that can be translated efficiently by some transfer rules. Finally, I have been working on the transliteration of named entities. The second aspect of my work is the adaptation of the translation model to the domain or genre of the translation task.Finally, I have been working on improved language modeling, based on neural network language models, also called continuous space language models. They are used to rescore the n-best translation hypotheses.All the developed techniques have been thoroughly evaluated and I took part in three international evaluations of the BOLT project. Electronic Thesis or Dissertation Text en http://www.theses.fr/2015LEMA1018/document Aransa, Walid 2015-09-23 Le Mans Schwenk, Holger Barrault, Loïc
collection NDLTD
language en
sources NDLTD
topic Traduction
Automatique
Statistique
Langue
Arabe
SMT
Anglais
Modèle
Statistical
Machine
Translation
Arabic
Language
English
Model
418.028 563 5
spellingShingle Traduction
Automatique
Statistique
Langue
Arabe
SMT
Anglais
Modèle
Statistical
Machine
Translation
Arabic
Language
English
Model
418.028 563 5
Aransa, Walid
Statistical Machine Translation of the Arabic Language
description La traduction automatique de texte arabe a reçu beaucoup d'attention au cours de la dernière décennie. La langue arabe, langue officielle de plus de 25 pays, est parlée par plus de 290 millions de personnes. Les changements politiques engendrés par les révolutions arabes ont mis sur le devant de la scène cette langue et ses multiples dialectes. Ce travail s'inscrit dans le cadre du projet BOLT dont le but est d'améliorer les performances des systèmes de traduction arabe-anglais pour des domaines spécifiques (SMS, parole conversationnelle, etc.)Dans cette thèse, j'ai enrichi le système de traduction à base de segments du LIUM à maints égards. Les systèmes à base de segments fournissent actuellement les meilleures performances. Ces systèmes sont basés sur deux modèles statistiques : le modèle de traduction et le modèle de langage. Dans l'objectif d’améliorer la qualité de traduction de l'arabe, nous avons mis l'accent sur trois aspects. Le premier aspect est la réduction des mots inconnus dans la sortie de traduction. Le second aspect de mon travail de thèse est l'adaptation au domaine ou à la tâche de la table de traduction. Finalement, je me suis intéressé à l'amélioration de la modélisation linguistique avec des réseaux de neurones. Ces modèles sont utilisés pour re-évaluer les n-meilleures hypothèses de traduction.Toutes les techniques développées ont été minutieusement incorporées dans le système du LIUM et évaluées dans trois campagnes d’évaluation internationales dans le cadre du projet BOLT. === The Arabic language received a lot of attention in the machine translation community during the last decade. It is the official language of 25 countries and it is spoken by more than 380 million people. The interest in Arabic language and its dialects increased more after the Arab spring and the political change in the Arab countries. In this thesis, I worked on improving LIUM's machine translation system for Arabic-English in the frame-work of the BOLT project.In this thesis, I have extend LIUM's phrase-based statistical machine translation system in many ways. Phrase-based systems are considered to be one of the best performing approaches. Basically, two probabilistic models are used, a translation model and a language model.I have been working on improving the translation quality. This is done by focusing on three different aspects. The first aspect is reducing the number of unknown words in the translated output. Second, the entities like numbers or dates that can be translated efficiently by some transfer rules. Finally, I have been working on the transliteration of named entities. The second aspect of my work is the adaptation of the translation model to the domain or genre of the translation task.Finally, I have been working on improved language modeling, based on neural network language models, also called continuous space language models. They are used to rescore the n-best translation hypotheses.All the developed techniques have been thoroughly evaluated and I took part in three international evaluations of the BOLT project.
author2 Le Mans
author_facet Le Mans
Aransa, Walid
author Aransa, Walid
author_sort Aransa, Walid
title Statistical Machine Translation of the Arabic Language
title_short Statistical Machine Translation of the Arabic Language
title_full Statistical Machine Translation of the Arabic Language
title_fullStr Statistical Machine Translation of the Arabic Language
title_full_unstemmed Statistical Machine Translation of the Arabic Language
title_sort statistical machine translation of the arabic language
publishDate 2015
url http://www.theses.fr/2015LEMA1018/document
work_keys_str_mv AT aransawalid statisticalmachinetranslationofthearabiclanguage
AT aransawalid traductionautomatiquestatistiquedelalanguearabe
_version_ 1718564430073036800