CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis

Transcript CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis

CESTA : Campagne d’évaluation
des systèmes
de traduction automatique
Andrei Popescu-Belis
Université de Genève
i-expo, Paris, 14 juin 2007
Pourquoi évaluer des systèmes de
traduction automatique (TA) ?

La qualité des systèmes de TA augmente


ils possèdent déjà de nombreuses applications
Les utilisateurs ont besoin de critères

pour acheter, utiliser, ou remplacer des systèmes
 Des méthodes d’évaluation fiables permettent
d’améliorer les systèmes de TA et aident les
utilisateurs dans leurs choix
2
CESTA | i-expo | 14 juin 2007
Pourquoi est-ce difficile d’évaluer
des systèmes de TA ?

Il n’y a pas une seule, mais de nombreuses
traductions correctes d’un texte donné


Il est donc impossible de comparer une traduction
produite par un système à « la traduction correcte »


3
l’ensemble de ces traductions est difficile à cerner
il faut trouver d’autres méthodes pour en estimer la qualité
De plus, la qualité de la traduction n’est pas le seul facteur
qui détermine l’utilité d’un système de TA
CESTA | i-expo | 14 juin 2007
CESTA (2003-2006) : objectifs

Définir un protocole fiable pour l’évaluation de la TA



Évaluer des systèmes de TA





industriels et académiques
traduisant de l’anglais et de l’arabe vers le français
dans plusieurs domaines et conditions d’utilisation
Mettre à disposition de la communauté des
ressources et des outils pour l’évaluation de la TA
CESTA  EVALDA  Technolangue

4
mesures de qualité nécessitant des juges humains
mesures de qualité automatiques
synergies avec ARCADE2, CESART, EQueR, EVASY
CESTA | i-expo | 14 juin 2007
Organisateurs et comité scientifique


5
Organisateurs

Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA)

Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi
(Université de Lille 3, IDIST/CERSATES)
Comité scientifique

Christian Boitet (Université de Grenoble)

Stéphane Chaudiron (Ministère de la Recherche)

Anthony Hartley (Université de Leeds/CTS)

Philippe Langlais (Université de Montréal/RALI)

Andrei Popescu-Belis (Université de Genève)

Martin Rajman (EPFL/LIA)
CESTA | i-expo | 14 juin 2007
Plan de la présentation
1. Spécifications et méthodes

mesures de la qualité de la TA

scénarios des deux campagnes réalisées

ressources linguistiques : données de test
2. Exemples de résultats obtenus

scores des systèmes

étude de la fiabilité des métriques
3. Apports et perspectives
6
CESTA | i-expo | 14 juin 2007
Première partie
Spécifications et méthodes de CESTA
Systèmes de TA participant à CESTA

8
Première campagne

Seconde campagne

CIMOS

Comprendium

Comprendium

RALI

RALI

RWTH

SDL

Softissimo

Softissimo

Systran

Systran

UPC
CESTA | i-expo | 14 juin 2007
Mesures de qualité automatiques (1/2)

Principe: mesurer la qualité d’un texte traduit en comparant celuici à une ou plusieurs traductions de référence

Objectif de CESTA: tester la fiabilité de plusieurs de ces
métriques, pour les traductions vers le français

Mesures employées dans CESTA
 BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001)



NIST (Doddington, 2002)


variante de BLEU: gain d’information et pénalités selon la taille
WNM : Weighted n-gram metric (Babych & Hartley 2004)


9
moyenne pondérée du nombre de mots en commun, du nombre de
bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4)
fiabilité inconnue pour des langues cible à morphologie riche
pondère les comparaisons de n-grammes selon leur fréquence
autorise une certaine variation dans la traduction
CESTA | i-expo | 14 juin 2007
Mesures de qualité automatiques (2/2)

Mesures employées dans CESTA [suite]

X-Score (Rajman & Hartley, 2001)



D-Score (Rajman & Hartley, 2001)



analyse de la préservation du contenu sémantique en comparant la
représentation sémantique vectorielle du texte traduit avec celle d’un
texte de référence
mesure expérimentale implémentée par l’ELDA pour CESTA
Distances d’édition de chaînes de caractères (Leusch et al., 2003)


10
analyse la grammaticalité du texte traduit en comparant la distribution
morpho-syntaxique du texte avec un corpus de référence
mesure expérimentale implémentée par l’ELDA pour CESTA
mWER: Multi-reference Word Error Rate
mPER: Multi-reference Position-independant Word Error Rate
CESTA | i-expo | 14 juin 2007
Mesures d’évaluation fondées
sur des jugements humains

Objectifs de CESTA


l’évaluation humaine des systèmes (référence de la qualité)
la méta-évaluation des métriques automatiques

en comparant leurs scores avec ceux des juges humains

Développement par l’ELDA d’une interface pour
l’évaluation humaine en ligne, via HTTP

Scores d’adéquation (sémantique) et de fluidité



11
échelle de 1 à 5
chaque segment est évalué par deux juges différents
les segments sont présentés aléatoirement
CESTA | i-expo | 14 juin 2007
Interface d’évaluation de l’adéquation
12
CESTA | i-expo | 14 juin 2007
Première et seconde campagnes


Première campagne: domaine « général »

pas de phase d’adaptation au domaine des textes

mise en place du protocole d’évaluation
Seconde campagne: avant et après adaptation à
un domaine spécifique = santé

13
comparaison des résultats des systèmes de TA dans les
deux conditions

perfectionnement et réutilisation du protocole d’évaluation

analyse de la fiabilité des métriques
CESTA | i-expo | 14 juin 2007
Données : anglais  français

1ère campagne

test à blanc : 20.000 mots extraits du JOC


test réel : 20.000 mots extraits du JOC + 200.000 mots
extraits de MLCC pour le masquage (répartition aléatoire)


4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
2nde campagne

adaptation : 20.000 mots extraits du site Santé Canada



sous-corpus du corpus CESART français
1 traduction de référence
test réel : 20.000 mots extraits du même site + 200.000 mots
pour le masquage

14
1 traduction de référence
4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
CESTA | i-expo | 14 juin 2007
Données : arabe  français [similaires]

1ère campagne

test à blanc : 20.000 mots extraits du Monde Diplomatique


test réel : 20.000 mots extraits du monde Diplomatique (2002)
+ 200.000 mots extraits de Al-Hayat (1998) pour le masquage


4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
2nde campagne

adaptation : 20.000 mots extraits des sites UNICEF, OMS et
Family Health International


1 traduction de référence
test réel : 20.000 mots extraits des mêmes sites + 200.000
mots pour le masquage

15
1 traduction de référence
4 trad. de référence (1 officielle + 3 agences) pour l’évaluation
CESTA | i-expo | 14 juin 2007
Déroulement

Test à blanc : août 2004
données semblables à la campagne d’évaluation
 vérifier le format des fichiers et l’échange des données


1ère campagne



2nde campagne



16
1er au 8 février 2005 : phase de test des systèmes
avril à juin 2005 : évaluations humaines
27 septembre au 10 octobre 2005 : phase d’adaptation
11 au 18 octobre 2005 : phase de test
octobre 2005 à février 2006 : évaluations humaines
CESTA | i-expo | 14 juin 2007
Deuxième partie
Exemples de résultats obtenus par CESTA
Le rapport final est disponible à l’adresse :
http://www.technolangue.net/article199.html
Pourcentage d’accord entre les scores
humains en fonction de la distance [2e c.]
Fluidité Arabe & Anglais
Fluidité Anglais
Fluidité Arabe
Adéquation Arabe & Anglais
Adéquation Anglais
Adéquation Arabe
100,00
90,00
80,00
70,00
60,00
50,00
40,00
30,00
20,00
10,00
0,00
0
18
1
2
CESTA | i-expo | 14 juin 2007
3
4
Jugements humains : scores et intervalles de
confiance ; rangs et leurs probabilités
[2nde campagne, après adaptation au domaine]
Système
Fluidité
Adéquation
Score (1-5) Classement Score (1-5) Classement
S8(en,2b)
2.28±.10
5 (p=1)
2.84±.11
5 (p=1)
S9(en,2b)
3.19±.11
3* (p=.51)
3.15±.10
4 (p=1)
S10(en,2b)
3.30±.10
2 (p=.95)
3.44±.11
2 (p=.88)
S11(en,2b)
3.19±.10
3* (p=.51)
3.38±.11
3 (p=.88)
S12(en,2b)
3.57±.09
1 (p=1)
3.78±.09
1 (p=1)
S13(ar,2b)
3.08±.11
1 (p=1)
2.70±.12
1 (p=1)
19
CESTA | i-expo | 14 juin 2007
Jugements humains : scores et intervalles de
confiance ; rangs et leurs probabilités
[2nde campagne, après adaptation au domaine]
Système
Fluidité
Adéquation
Score (1-5) Classement Score (1-5) Classement
S8(en,2b)
2.28±.10
5 (p=1)
2.84±.11
5 (p=1)
S9(en,2b)
3.19±.11
3* (p=.51)
3.15±.10
4 (p=1)
S10(en,2b)
3.30±.10
2 (p=.95)
3.44±.11
2 (p=.88)
S11(en,2b)
3.19±.10
3* (p=.51)
3.38±.11
3 (p=.88)
S12(en,2b)
3.57±.09
1 (p=1)
3.78±.09
1 (p=1)
S13(ar,2b)
3.08±.11
1 (p=1)
2.70±.12
1 (p=1)
20
CESTA | i-expo | 14 juin 2007
Métriques automatiques : scores et intervalles
de confiance ; rangs et probabilités
[2nde campagne, après adaptation]
BLEU
Système
NIST
WNMf
X-score
D-score
%
cl.
v. a.
cl.
%
cl.
v. a.
cl.
v. a.
cl.
S8(en,2b)
33.04±3.00
2
8.35±0.40
5
50.05±0.66
5
35.58
5
41.52
1
S9(en,2b)
38.07±2.70
4
9.13±0.34
2
51.50±0.71
3
36.71
4
44.06
3
S10(en,2b)
36.60±2.40
5
8.97±0.31
3
52.47±0.68
2
38.50
1
44.06
3
S11(en,2b)
35.74±4.60
3
8.77±0.49
4
50.59±0.66
4
38.15
2
46.16
5
S12(en,2b)
40.43±1.00
1
9.27±0.17
1
56.25±0.77
1
37.65
3
42.20
2
S13(ar,2b)
40.82
1
8.95
1
54.15
1
42.04
1
-
-
21
CESTA | i-expo | 14 juin 2007
Métriques automatiques : scores et intervalles
de confiance ; rangs et probabilités
[2nde campagne, après adaptation]
BLEU
Système
NIST
WNMf
X-score
D-score
%
cl.
v. a.
cl.
%
cl.
v. a.
cl.
v. a.
cl.
S8(en,2b)
33.04±3.00
2
8.35±0.40
5
50.05±0.66
5
35.58
5
41.52
1
S9(en,2b)
38.07±2.70
4
9.13±0.34
2
51.50±0.71
3
36.71
4
44.06
3
S10(en,2b)
36.60±2.40
5
8.97±0.31
3
52.47±0.68
2
38.50
1
44.06
3
S11(en,2b)
35.74±4.60
3
8.77±0.49
4
50.59±0.66
4
38.15
2
46.16
5
S12(en,2b)
40.43±1.00
1
9.27±0.17
1
56.25±0.77
1
37.65
3
42.20
2
S13(ar,2b)
40.82
1
8.95
1
54.15
1
42.04
1
-
-
22
CESTA | i-expo | 14 juin 2007
Corrélation de Pearson (échelle -1 à 1)
entre les métriques automatiques
et les juges humains
[2nde campagne, après adaptation, ENFR]
BLEU
NIST
WNMf
X-score
D-score
Fluidité
0.85
0.87
0.86
0.52
0.05
Adéquation
0.94
0.95
0.95
0.39
0.25
23
CESTA | i-expo | 14 juin 2007
Corrélation de Pearson (échelle -1 à 1)
entre les métriques automatiques
et les juges humains
[2nde campagne, après adaptation, ENFR]
BLEU
NIST
WNMf
X-score
D-score
Fluidité
0.85
0.87
0.86
0.52
0.05
Adéquation
0.94
0.95
0.95
0.39
0.25
24
CESTA | i-expo | 14 juin 2007
Comparaison des scores obtenus par les
métriques automatiques avant et après
adaptation [2nde campagne, ENFR]
Sys
BLEU (%)
NIST
WNMf (%)
X-score
avant après avant après avant après avant
D-score
après avant après
S8
32.83 33.04
7.76
8.35
48.09 50.05 34.91 35.58 42.56 41.52
S9
37.96 38.07
9.14
9.13
51.37 51.50 36.68 36.71 44.02 44.06
S10 33.80 36.60
8.58
8.97
50.02 52.47 38.57 38.50 44.13 44.06
S11 35.19 35.74
8.71
8.77
49.79 50.59 37.86 38.15 46.61 46.16
S12 25.61 40.43
7.38
9.27
48.06 56.25 34.60 37.65 40.67 42.20
25
CESTA | i-expo | 14 juin 2007
Comparaison des scores obtenus par les
métriques automatiques avant et après
adaptation [2nde campagne, ENFR]
Sys
BLEU (%)
NIST
WNMf (%)
X-score
avant après avant après avant après avant
D-score
après avant après
S8
32.83 33.04
7.76
8.35
48.09 50.05 34.91 35.58 42.56 41.52
S9
37.96 38.07
9.14
9.13
51.37 51.50 36.68 36.71 44.02 44.06
S10 33.80 36.60
8.58
8.97
50.02 52.47 38.57 38.50 44.13 44.06
S11 35.19 35.74
8.71
8.77
49.79 50.59 37.86 38.15 46.61 46.16
S12 25.61 40.43
7.38
9.27
48.06 56.25 34.60 37.65 40.67 42.20
26
CESTA | i-expo | 14 juin 2007
Troisième partie
Apports et perspectives
Bilan global de CESTA

Production d’une grande quantité de données

corpus parallèles : texte source + 4 traductions de référence
(officielle, agences) + 5 traductions automatiques

anglais/français et arabe/français

Analyse de nombreuses métriques automatiques récentes

Développement et étude de deux métriques expérimentales

Protocole d’évaluation

Site web pour l’évaluation humaine
28
CESTA | i-expo | 14 juin 2007
Apports de la campagne CESTA

Aux chercheurs


nouveaux résultats sur l’applicabilité des métriques automatiques
au français  elles sont moins fiables que pour l’anglais
Aux développeurs de systèmes de TA ENFR et ARFR

utiliser le package CESTA pour mesurer leurs progrès



Aux utilisateurs de TA


les intervalles de confiance et les corrélations de CESTA permettent
d’estimer la fiabilité d’autres résultats obtenus
les valeurs obtenues dans CESTA permettent de comparer les systèmes
avec l’état de l’art en 2005-2006
utiliser le package CESTA pour comparer des systèmes de TA
Le meilleur système ou le système le plus adapté ?!
beaucoup de qualités peuvent être utiles en réalité
 répertoire FEMTI : http://www.issco.unige.ch/femti

29
CESTA | i-expo | 14 juin 2007
Publications
Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne
d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action
Technolangue (2002-2006), Hermès, Paris, 24 p.
Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality
Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit
XI, Copenhagen, 8 p.
O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In
Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa,
Italy, May 2006, p.155-160
O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi,
(2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the
5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006,
p.179-184
Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre
d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN,
Leuven, Belgium, April 10-13, pages 217-226 .
S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K.
Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA
Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124.
M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation
Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11.
V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information
Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation
(LREC 2004), Lisbon, Portugal, May 2004, p.381-384.
W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-inProgress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING'
2004, Geneva, Switzerland, August 2004.
30
CESTA | i-expo | 14 juin 2007
CESTA remercie chaleureusement tous les
systèmes ayant participé à la campagne !
COMPRENDIUM - Translendium SL, www.translendium.com [ENFR]
MLTS - CIMOS, www.cimos.com [ARFR]
RALI, Université de Montréal [ENFR]
REVERSO - Softissimo, www.softissimo.com, www.reverso.net [ENFR]
Université Technologique de Aachen (RWTH) [ARFR]
SDL Enterprise Translation Server – SDL Int., www.sdl.com [ENFR]
SYSTRAN, www.systran.fr [ARFR et ENFR]
Université Polytechnique de Catalogne [ENFR]
31
CESTA | i-expo | 14 juin 2007

CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis

Transcript CESTA : Campagne d’évaluation des systèmes de traduction automatique Andrei Popescu-Belis

Directory