CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis
Download ReportTranscript CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis
CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis Université de Genève i-expo, Paris, 14 juin 2007 Pourquoi évaluer des systèmes de traduction automatique (TA) ? La qualité des systèmes de TA augmente ils possèdent déjà de nombreuses applications Les utilisateurs ont besoin de critères pour acheter, utiliser, ou remplacer des systèmes Des méthodes d’évaluation fiables permettent d’améliorer les systèmes de TA et aident les utilisateurs dans leurs choix 2 CESTA | i-expo | 14 juin 2007 Pourquoi est-ce difficile d’évaluer des systèmes de TA ? Il n’y a pas une seule, mais de nombreuses traductions correctes d’un texte donné Il est donc impossible de comparer une traduction produite par un système à « la traduction correcte » 3 l’ensemble de ces traductions est difficile à cerner il faut trouver d’autres méthodes pour en estimer la qualité De plus, la qualité de la traduction n’est pas le seul facteur qui détermine l’utilité d’un système de TA CESTA | i-expo | 14 juin 2007 CESTA (2003-2006) : objectifs Définir un protocole fiable pour l’évaluation de la TA Évaluer des systèmes de TA industriels et académiques traduisant de l’anglais et de l’arabe vers le français dans plusieurs domaines et conditions d’utilisation Mettre à disposition de la communauté des ressources et des outils pour l’évaluation de la TA CESTA EVALDA Technolangue 4 mesures de qualité nécessitant des juges humains mesures de qualité automatiques synergies avec ARCADE2, CESART, EQueR, EVASY CESTA | i-expo | 14 juin 2007 Organisateurs et comité scientifique 5 Organisateurs Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA) Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi (Université de Lille 3, IDIST/CERSATES) Comité scientifique Christian Boitet (Université de Grenoble) Stéphane Chaudiron (Ministère de la Recherche) Anthony Hartley (Université de Leeds/CTS) Philippe Langlais (Université de Montréal/RALI) Andrei Popescu-Belis (Université de Genève) Martin Rajman (EPFL/LIA) CESTA | i-expo | 14 juin 2007 Plan de la présentation 1. Spécifications et méthodes mesures de la qualité de la TA scénarios des deux campagnes réalisées ressources linguistiques : données de test 2. Exemples de résultats obtenus scores des systèmes étude de la fiabilité des métriques 3. Apports et perspectives 6 CESTA | i-expo | 14 juin 2007 Première partie Spécifications et méthodes de CESTA Systèmes de TA participant à CESTA 8 Première campagne Seconde campagne CIMOS Comprendium Comprendium RALI RALI RWTH SDL Softissimo Softissimo Systran Systran UPC CESTA | i-expo | 14 juin 2007 Mesures de qualité automatiques (1/2) Principe: mesurer la qualité d’un texte traduit en comparant celuici à une ou plusieurs traductions de référence Objectif de CESTA: tester la fiabilité de plusieurs de ces métriques, pour les traductions vers le français Mesures employées dans CESTA BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001) NIST (Doddington, 2002) variante de BLEU: gain d’information et pénalités selon la taille WNM : Weighted n-gram metric (Babych & Hartley 2004) 9 moyenne pondérée du nombre de mots en commun, du nombre de bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4) fiabilité inconnue pour des langues cible à morphologie riche pondère les comparaisons de n-grammes selon leur fréquence autorise une certaine variation dans la traduction CESTA | i-expo | 14 juin 2007 Mesures de qualité automatiques (2/2) Mesures employées dans CESTA [suite] X-Score (Rajman & Hartley, 2001) D-Score (Rajman & Hartley, 2001) analyse de la préservation du contenu sémantique en comparant la représentation sémantique vectorielle du texte traduit avec celle d’un texte de référence mesure expérimentale implémentée par l’ELDA pour CESTA Distances d’édition de chaînes de caractères (Leusch et al., 2003) 10 analyse la grammaticalité du texte traduit en comparant la distribution morpho-syntaxique du texte avec un corpus de référence mesure expérimentale implémentée par l’ELDA pour CESTA mWER: Multi-reference Word Error Rate mPER: Multi-reference Position-independant Word Error Rate CESTA | i-expo | 14 juin 2007 Mesures d’évaluation fondées sur des jugements humains Objectifs de CESTA l’évaluation humaine des systèmes (référence de la qualité) la méta-évaluation des métriques automatiques en comparant leurs scores avec ceux des juges humains Développement par l’ELDA d’une interface pour l’évaluation humaine en ligne, via HTTP Scores d’adéquation (sémantique) et de fluidité 11 échelle de 1 à 5 chaque segment est évalué par deux juges différents les segments sont présentés aléatoirement CESTA | i-expo | 14 juin 2007 Interface d’évaluation de l’adéquation 12 CESTA | i-expo | 14 juin 2007 Première et seconde campagnes Première campagne: domaine « général » pas de phase d’adaptation au domaine des textes mise en place du protocole d’évaluation Seconde campagne: avant et après adaptation à un domaine spécifique = santé 13 comparaison des résultats des systèmes de TA dans les deux conditions perfectionnement et réutilisation du protocole d’évaluation analyse de la fiabilité des métriques CESTA | i-expo | 14 juin 2007 Données : anglais français 1ère campagne test à blanc : 20.000 mots extraits du JOC test réel : 20.000 mots extraits du JOC + 200.000 mots extraits de MLCC pour le masquage (répartition aléatoire) 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation 2nde campagne adaptation : 20.000 mots extraits du site Santé Canada sous-corpus du corpus CESART français 1 traduction de référence test réel : 20.000 mots extraits du même site + 200.000 mots pour le masquage 14 1 traduction de référence 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation CESTA | i-expo | 14 juin 2007 Données : arabe français [similaires] 1ère campagne test à blanc : 20.000 mots extraits du Monde Diplomatique test réel : 20.000 mots extraits du monde Diplomatique (2002) + 200.000 mots extraits de Al-Hayat (1998) pour le masquage 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation 2nde campagne adaptation : 20.000 mots extraits des sites UNICEF, OMS et Family Health International 1 traduction de référence test réel : 20.000 mots extraits des mêmes sites + 200.000 mots pour le masquage 15 1 traduction de référence 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation CESTA | i-expo | 14 juin 2007 Déroulement Test à blanc : août 2004 données semblables à la campagne d’évaluation vérifier le format des fichiers et l’échange des données 1ère campagne 2nde campagne 16 1er au 8 février 2005 : phase de test des systèmes avril à juin 2005 : évaluations humaines 27 septembre au 10 octobre 2005 : phase d’adaptation 11 au 18 octobre 2005 : phase de test octobre 2005 à février 2006 : évaluations humaines CESTA | i-expo | 14 juin 2007 Deuxième partie Exemples de résultats obtenus par CESTA Le rapport final est disponible à l’adresse : http://www.technolangue.net/article199.html Pourcentage d’accord entre les scores humains en fonction de la distance [2e c.] Fluidité Arabe & Anglais Fluidité Anglais Fluidité Arabe Adéquation Arabe & Anglais Adéquation Anglais Adéquation Arabe 100,00 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10,00 0,00 0 18 1 2 CESTA | i-expo | 14 juin 2007 3 4 Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités [2nde campagne, après adaptation au domaine] Système Fluidité Adéquation Score (1-5) Classement Score (1-5) Classement S8(en,2b) 2.28±.10 5 (p=1) 2.84±.11 5 (p=1) S9(en,2b) 3.19±.11 3* (p=.51) 3.15±.10 4 (p=1) S10(en,2b) 3.30±.10 2 (p=.95) 3.44±.11 2 (p=.88) S11(en,2b) 3.19±.10 3* (p=.51) 3.38±.11 3 (p=.88) S12(en,2b) 3.57±.09 1 (p=1) 3.78±.09 1 (p=1) S13(ar,2b) 3.08±.11 1 (p=1) 2.70±.12 1 (p=1) 19 CESTA | i-expo | 14 juin 2007 Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités [2nde campagne, après adaptation au domaine] Système Fluidité Adéquation Score (1-5) Classement Score (1-5) Classement S8(en,2b) 2.28±.10 5 (p=1) 2.84±.11 5 (p=1) S9(en,2b) 3.19±.11 3* (p=.51) 3.15±.10 4 (p=1) S10(en,2b) 3.30±.10 2 (p=.95) 3.44±.11 2 (p=.88) S11(en,2b) 3.19±.10 3* (p=.51) 3.38±.11 3 (p=.88) S12(en,2b) 3.57±.09 1 (p=1) 3.78±.09 1 (p=1) S13(ar,2b) 3.08±.11 1 (p=1) 2.70±.12 1 (p=1) 20 CESTA | i-expo | 14 juin 2007 Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation] BLEU Système NIST WNMf X-score D-score % cl. v. a. cl. % cl. v. a. cl. v. a. cl. S8(en,2b) 33.04±3.00 2 8.35±0.40 5 50.05±0.66 5 35.58 5 41.52 1 S9(en,2b) 38.07±2.70 4 9.13±0.34 2 51.50±0.71 3 36.71 4 44.06 3 S10(en,2b) 36.60±2.40 5 8.97±0.31 3 52.47±0.68 2 38.50 1 44.06 3 S11(en,2b) 35.74±4.60 3 8.77±0.49 4 50.59±0.66 4 38.15 2 46.16 5 S12(en,2b) 40.43±1.00 1 9.27±0.17 1 56.25±0.77 1 37.65 3 42.20 2 S13(ar,2b) 40.82 1 8.95 1 54.15 1 42.04 1 - - 21 CESTA | i-expo | 14 juin 2007 Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation] BLEU Système NIST WNMf X-score D-score % cl. v. a. cl. % cl. v. a. cl. v. a. cl. S8(en,2b) 33.04±3.00 2 8.35±0.40 5 50.05±0.66 5 35.58 5 41.52 1 S9(en,2b) 38.07±2.70 4 9.13±0.34 2 51.50±0.71 3 36.71 4 44.06 3 S10(en,2b) 36.60±2.40 5 8.97±0.31 3 52.47±0.68 2 38.50 1 44.06 3 S11(en,2b) 35.74±4.60 3 8.77±0.49 4 50.59±0.66 4 38.15 2 46.16 5 S12(en,2b) 40.43±1.00 1 9.27±0.17 1 56.25±0.77 1 37.65 3 42.20 2 S13(ar,2b) 40.82 1 8.95 1 54.15 1 42.04 1 - - 22 CESTA | i-expo | 14 juin 2007 Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains [2nde campagne, après adaptation, ENFR] BLEU NIST WNMf X-score D-score Fluidité 0.85 0.87 0.86 0.52 0.05 Adéquation 0.94 0.95 0.95 0.39 0.25 23 CESTA | i-expo | 14 juin 2007 Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains [2nde campagne, après adaptation, ENFR] BLEU NIST WNMf X-score D-score Fluidité 0.85 0.87 0.86 0.52 0.05 Adéquation 0.94 0.95 0.95 0.39 0.25 24 CESTA | i-expo | 14 juin 2007 Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR] Sys BLEU (%) NIST WNMf (%) X-score avant après avant après avant après avant D-score après avant après S8 32.83 33.04 7.76 8.35 48.09 50.05 34.91 35.58 42.56 41.52 S9 37.96 38.07 9.14 9.13 51.37 51.50 36.68 36.71 44.02 44.06 S10 33.80 36.60 8.58 8.97 50.02 52.47 38.57 38.50 44.13 44.06 S11 35.19 35.74 8.71 8.77 49.79 50.59 37.86 38.15 46.61 46.16 S12 25.61 40.43 7.38 9.27 48.06 56.25 34.60 37.65 40.67 42.20 25 CESTA | i-expo | 14 juin 2007 Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR] Sys BLEU (%) NIST WNMf (%) X-score avant après avant après avant après avant D-score après avant après S8 32.83 33.04 7.76 8.35 48.09 50.05 34.91 35.58 42.56 41.52 S9 37.96 38.07 9.14 9.13 51.37 51.50 36.68 36.71 44.02 44.06 S10 33.80 36.60 8.58 8.97 50.02 52.47 38.57 38.50 44.13 44.06 S11 35.19 35.74 8.71 8.77 49.79 50.59 37.86 38.15 46.61 46.16 S12 25.61 40.43 7.38 9.27 48.06 56.25 34.60 37.65 40.67 42.20 26 CESTA | i-expo | 14 juin 2007 Troisième partie Apports et perspectives Bilan global de CESTA Production d’une grande quantité de données corpus parallèles : texte source + 4 traductions de référence (officielle, agences) + 5 traductions automatiques anglais/français et arabe/français Analyse de nombreuses métriques automatiques récentes Développement et étude de deux métriques expérimentales Protocole d’évaluation Site web pour l’évaluation humaine 28 CESTA | i-expo | 14 juin 2007 Apports de la campagne CESTA Aux chercheurs nouveaux résultats sur l’applicabilité des métriques automatiques au français elles sont moins fiables que pour l’anglais Aux développeurs de systèmes de TA ENFR et ARFR utiliser le package CESTA pour mesurer leurs progrès Aux utilisateurs de TA les intervalles de confiance et les corrélations de CESTA permettent d’estimer la fiabilité d’autres résultats obtenus les valeurs obtenues dans CESTA permettent de comparer les systèmes avec l’état de l’art en 2005-2006 utiliser le package CESTA pour comparer des systèmes de TA Le meilleur système ou le système le plus adapté ?! beaucoup de qualités peuvent être utiles en réalité répertoire FEMTI : http://www.issco.unige.ch/femti 29 CESTA | i-expo | 14 juin 2007 Publications Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action Technolangue (2002-2006), Hermès, Paris, 24 p. Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit XI, Copenhagen, 8 p. O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160 O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184 Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN, Leuven, Belgium, April 10-13, pages 217-226 . S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K. Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124. M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11. V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, May 2004, p.381-384. W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-inProgress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Geneva, Switzerland, August 2004. 30 CESTA | i-expo | 14 juin 2007 CESTA remercie chaleureusement tous les systèmes ayant participé à la campagne ! COMPRENDIUM - Translendium SL, www.translendium.com [ENFR] MLTS - CIMOS, www.cimos.com [ARFR] RALI, Université de Montréal [ENFR] REVERSO - Softissimo, www.softissimo.com, www.reverso.net [ENFR] Université Technologique de Aachen (RWTH) [ARFR] SDL Enterprise Translation Server – SDL Int., www.sdl.com [ENFR] SYSTRAN, www.systran.fr [ARFR et ENFR] Université Polytechnique de Catalogne [ENFR] 31 CESTA | i-expo | 14 juin 2007