TRAVAUX DANS LA TRADUCTION AUTOMATIQUE DES DIALECTES ARABES
A. Construction des dictionnaires
Un dictionnaire bilingue est employé dans la phase de transfert de la méthode basée sur les règles pour produire l’équivalent d’une entrée source dans la langue cible. Dans ce cadre, AlSabbagh R. et Girju R. (2010) ont construit un dictionnaire bilingue pour le dialecte Egyptien en utilisant une méthode associative basée sur la corrélation de la cooccurrence des mots dans quatre dialectes arabes: l’Egyptien, le Marocain, l’Iraquien et le Golfe, et ce à partir des requêtes dans le web. Cette approche (circulaire) a permis de surmonter le problème de rareté des corpus en dialectes Arabes puisque l’acquisition d’une occurrence des mots pour un dialecte est conditionnée juste par l’acquisition de l’autre occurrence dans l’autre dialecte. L’évaluation de performance de cette méthode a atteint 70,9% en Fmesure.
K. Meftouh, et K. Smaıli (2013) ont présenté une méthode pour la construction d’un corpus parallèle (Arabe Moderne Standard -MSA- versus dialecte Algérien) afin d’être utilisé dans le développement d’un système de traduction pour ces deux langues. En effet, ils ont commencé d’abord par l’enregistrement audio des discussions réelles en dialecte algérien entre les gens dans des situations différentes (Hôpital, Ecole, Administrations, etc.) puis, ils ont enlevé les segments bruités dont le son n’est pas clair. Le résultat de ce traitement leur a permis de construire l’équivalent de dix heures des discussions. Ensuite, ils ont réalisé une transcription manuelle en lettres arabes de ces enregistrements pour construire un corpus monolingue, et ont fait une extraction de tous les mots qui seront affiliés à leurs correspondants en MSA pour construire un dictionnaire bilingue. Enfin ils ont remarqué que 65% du vocabulaire algérien est d’origine arabe standard, tandis que 19% est d’origine Française. Le reste de ce vocabulaire (16%) est partagé entre l’origine Turque et Amazighe.
Boujelbane, R. et al (2013) ont développé un dictionnaire bilingue annoté en vue de créer un corpus du dialecte tunisien et un modèle de langue pour un système de reconnaissance de la voie. En effet, ils ont exploité le corpus Penn Arabic Treebank[1] en MSA pour extraire les correspondances en dialecte tunisien des verbes qui existent dans ce corpus. Ils ont constaté que 60% des verbes changent totalement dans leurs morphologies durant la traduction. Enfin, pour évaluer la qualité de ce dictionnaire ils ont calculé la corrélation entre leurs traductions avec une traduction des spécialistes, celle-ci a atteint 74,79%.
B. Construction de corpus
Cette étape constitue un élément basique pour la méthode statistique car les systèmes de traduction statistique se basent sur l’analyse des corpus monolingue et bilingue afin de construire des paramètres pour un décodeur qui produit la probabilité de la traduction finale. Boujelbane, R. et al (2013) ont travaillé sur la génération automatique d’un corpus en dialecte Tunisien à l’aide d’un outil développé spécialement pour ce fait. En effet, le texte source en MSA est analysé d’abord par l’analyseur morphologique MADA[2] qui ajoute à chaque mot source des informations morphologiques et lexicales. Ensuite, cet outil exploite un dictionnaire bilingue annoté pour faire la correspondance entre le mot source et le mot cible.
(Graja M, Jaoua M, et Belghith, L 2010) ont produit un premier corpus tunisien ‘TuDicol’ à partir des dialogues enregistrés dans les stations de train entre les voyageurs et agents, puis ont présenté une étude sur le lexique de ce corpus qui contient 127 dialogues combinant 893 discours dont le nombre total des mots est 3403. Le résultat de l’analyse du corpus ‘TuDicol’ montre que 11,81% des mots du corpus ont une origine française.
Chiang et al. (2006) ont étudié le problème d’analyse de la transcription du dialecte levantin parlé dans les pays du moyen orient (Liban, Syrie et Jordanie). Ils affirment qu’il est possible de construire des corpus annotés à partir des lexiques qui relient des lexèmes levantins avec leurs équivalents en MSA Modern Standard Arabic, et cela en connaissant les différences morphologiques et syntaxiques qui existent entre ces deux langues. Les lexiques crées sont ensuite utilisés pour tester un texte en dialecte Levantin transcrit.
Dans le même sens, Belgasem M. (2009) a construit un corpus de différents dialectes arabes à partir des émissions TV. En effet, il s’agit de télécharger et enregistrer les émissions TV de différents dialectes arabes qui consistent essentiellement en débats politiques, puis de transcrire ces enregistrements à l’aide de l’outil Transcriber [3] . Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l’identification des tours de paroles et des locuteurs, l’identification des sections thématiques, la transcription orthographique et la vérification.
C. Convention d’orthographe des dialectes
En raison de difficultés trouvées lors du traitement du contenu en dialectes arabes, un seul mot peut être transcrit de différentes manières. Par exemple, en dialecte Marocain, le mot غناكل /je vais manger/ peut être aussi écrit comme غاناكل. Des chercheurs ont proposé des normes et standards pour l’écriture de ces dialectes dans le but de produire des systèmes de traduction plus robustes. En effet, Nizar Habash et al. (2012) ont proposé CODA comme méthode pour une écriture standard des dialectes arabes et ce dans le but de faciliter le traitement automatique de ces langues. En effet, chaque mot en dialecte a une unique forme orthographique dans CODA qui représente sa morphologie et phonologie. Cette méthode implémente les règles phonétiques de l’arabe standard. Par exemple en dialecte Marocain le mot كراج ‘garage’ se prononce ‘garage’ mais son équivalent en CODA est جراج . De même pour le mot را سك /ta tête/ qui se prononce ‘rasek’ mais son équivalent en CODA est
.رأسك
D. Analyseurs morphologiques
Dans les systèmes de traduction basés sur les règles, un analyseur morphologique est souvent intégré et intervient dans la phase Analyse pour décomposer le mot source en une succession de préfixe, radical et préfixe possibles qui constituent des entrées pour la phase suivante.
Habash N. et Rambow (2006) ont développé MAGEAD un système à base de règles qui permet de décrire les systèmes morphologiques des différentes variétés de l’arabe (dialecte Levantin et MSA) et de les compiler sous la forme d’un transducteur fini. MAGEAD effectue une analyse morphologique profonde. Partant d’une forme verbale ou nominale de l’arabe, il en fait l’analyse sous la forme d’une racine, d’une classe et de traits morphologiques. La précision de cet analyseur a atteint 94.2%.
Habash N. (2011) ont construit ADAM un analyseur morphologique des dialectes Egyptien et Levantin sur la base de l’analyseur morphologique de l’Arabe standard Buckwalter[4], En effet ils ont étendu sa liste des préfixes, suffixes et schèmes par ceux de ces deux dialectes. ADAM a atteint une précision de 84,4 % sur un ensemble des mots qui contient les dialectes déjà cités.
Khalid Almeman et Mark Lee (2012) ont travaillé sur un analyseur morphologique multi-dialectes de l’arabe qui utilise des ressources différentes. D’abord, ils ont utilisé l’analyseur morphologique Alkhalil après son adaptation avec les dialectes arabes pour décomposer les mots et identifier les suffixes et préfixes puis les analyser. Ensuite, si le résultat n’est pas satisfaisant, le web est employé pour tirer des statistiques sur les segments du mot déjà analysé. Ainsi le segment qui a le pourcentage le plus élevé est le schème. Ils ont abouti à 94% de précision sur un corpus de différents dialectes arabes.
E. Systèmes de traduction automatique des dialectes Arabes
C’est le processus qui permet de construire un système de traduction avec une architecture qui rassemble plusieurs étapes en se basant sur une approche par règles, statistique ou hybride. Plusieurs chercheurs ont exploité des outils existants du traitement automatique de l’arabe standard pour développer leurs systèmes de traduction des dialectes arabes.
Yahya alAmlahi (2007) a présenté un algorithme pour un système de traduction du dialecte Yemenien vers le MSA sans utilisation d’outils mais à l’aide d’un algorithme qui analyse les mots de ce dialecte sur la base de la liste de ses affixes. Cet algorithme est basé sur les règles morphologiques. Il fait la Tokenization du texte source, analyse chaque Token et vérifie si la racine du mot a conservé sa forme d’origine de l’arabe standard pour appliquer certaines règles de transfert.
Shaalan et al (2007) étaient concentrés sur le problème de traitement automatique du texte en arabe standard qui contient quelques segments du dialecte égyptien. Pour résoudre ce problème ils ont d’abord traduit les mots en dialecte égyptien vers l’arabe standard en utilisant des dictionnaires bilingues et les règles de transfert puis ont procédé au traitement de ce texte en utilisant des outils du traitement de l’arabe standard. Ils ont noté une correspondance intéressante entre le dialecte égyptien et
l’arabe standard.
Khaled Shaalan et Hitham M. Abo Bakr (2008) ont construit leurs système de traduction du dialecte égyptien vers l’arabe standard sur la base de l’analyseur morphologique Buckwalter. En effet, ce dernier a été alimenté par des éléments annotés du dialecte égyptien, puis un nouveau fichier a été introduit pour coder les règles de correspondance entre le dialecte égyptien et le MSA.
(Hitham M. Abo Bakr et al. 2008) ont présenté une approche hybride pour générer l’arabe standard avec les diacritiques à partir du dialecte égyptien sans diacritiques. Ils ont introduit cette fois une nouvelle annotation de la nature de mot (POS) pour annoter les données du dialecte égyptien. En effet le texte source est transformé en translitération de Buckwlater. Enfin un processus génère le texte traduit en arabe standard avec les diacritiques.
(Wael Salloum et Nizar Habash 2011) ont présenté une méthode basée sur les règles pour produire la traduction des dialectes arabes vers l’arabe standard en se limitant aux mots hors vocabulaire et les mots de faible fréquence.
Ils ont enrichit ADAM avec les préfixes et les suffixes des deux dialectes égyptien et Levantin puis ils ont utilisé les règles de transfert pour générer les traductions.
Ahmed Hamdi, et al. (2012) ont réutilisé MAGEAD pour traduire les verbes du dialecte tunisien. Ils ont alimenté MAGEAD par les préfixes et suffixes du dialecte tunisien pour ce fait, et ont abouti à une précision de 75%.
Emad Mohamed, e al. (2012) ont présenté une méthode basée sur les règles pour générer automatiquement la traduction des mots en arabe standard vers le dialecte égyptien. Leur hypothèse se base sur l’observation de la morphologie du dialecte dont le schème est généralement importé de l’arabe standard, tandis que les préfixes et suffixes changent. Le pourcentage des mots inconnus a atteint 16.66 %.
Wael Salloum et Nizar Habash (2012) ont utilisé ADAM, analyseur morphologique des dialectes arabes, pour créer le système ELISSA, basé sur les règles, qui traduit les dialectes arabes (Levantin, Iraquien et Egyptien) vers le MSA. Dans une première étape (Analyse) le texte introduit en dialecte est analysé par ADAM, puis dans
l’étape de transfert qui peut être réalisée de deux manières : traduction surfacique utilisant des dictionnaires bilingues ou traduction profonde utilisant l’outil MADA + TOKAN pour produire des mots en arabe standard qui constituent une combinaison de mots candidats à former une phrase. Enfin, l’outil SRILM[5] qui aide à construire un modèle de langue est introduit pour sélectionner la combinaison qui a une forte probabilité et qui va constituer ainsi la traduction finale de la phrase source.
F. Métriques d’évaluation
Pour tester la qualité de la traduction produite par le système de traduction développé, il existe des métriques qui assurent leurs évaluations par rapport à une traduction humaine de référence.
Le score BLEU (Bilingual Evaluation Understudy) est proposé par (Papineni et al 2001). L’idée principale est la comparaison de la sortie du traducteur avec une/des traductions de référence. Les statistiques de cooccurrence et de n-grammes, basées sur les ensembles de n-grammes pour les segments de traduction et de référence, sont calculées pour chacun de ces segments et sommées sur tous les segments. Cette moyenne est multipliée par une pénalité de brièveté, destinée à pénaliser les systèmes qui essaieraient d’augmenter artificiellement leurs scores en produisant des phrases délibérément courtes. Le score BLEU varie de 0 à 1 et il est d’autant meilleur qu’il est grand. BLEU a gagné le statut de mesure automatique de référence au sein de la communauté de traduction automatique.
Lavie et al. (2004) proposent la méthode METEOR qui est désignée à l’amélioration de la corrélation entre la traduction des systèmes de traduction et la traduction humaine au niveau des segments. La mesure est basée sur la moyenne harmonique des unigrammes de Précision (p) et de Rappel (r). Le score METEOR est calculé par la formule :
METEOR 10prr9p1 p. (1)
p 0,5cum³. (2)
Sachant que um est le nombre des unigrams en correspondance et c le nombre total des phrases.
Next section