Max Aurélien
LIMSI / Université Paris Sud XI, France
- Article 93 : Prise en compte de dépendances syntaxiques pour la traduction contextuelle de segments
- Auteurs :
Max Aurélien (LIMSI / Université Paris Sud XI, France)
Malhoufi Rafik (Université de Technologie de Troyes, France)
Langlais Philippe (Université de Montréal, Canada)
- Conférence : TALN
- Type : Communication orale
- Résumé : Dans un système standard de traduction statistique basé sur les segments, le score attribué aux différentes traductions d'un segment ne dépend pas du
contexte dans lequel il apparaît. Plusieurs travaux récents tendent à montrer
l'intérêt de prendre en compte le contexte source lors de la traduction, mais ces
études portent sur des systèmes traduisant vers l'anglais, une langue faiblement
fléchie. Dans cet article, nous décrivons nos expériences sur la prise en compte
du contexte source dans un système statistique traduisant de l'anglais vers le
français, basé sur l'approche proposée par Stroppa et al. (2007). Nous
étudions l'impact de différents types d'indices capturant l'information
contextuelle, notamment des dépendances syntaxiques typées.
Si les mesures automatiques d'évaluation de la qualité d'une traduction ne
révèlent pas de gains significatifs de notre système par rapport à un système à
l'état de l'art ne faisant pas usage du contexte, une évaluation manuelle
conduite sur 100 phrases choisies aléatoirement est en faveur de notre système.
Cette évaluation fait également ressortir que la prise en compte de certaines
dépendances syntaxiques est bénéfique à notre système.
- Format PDF
- Article 100 : Plusieurs langues (bien choisies) valent mieux qu'une : traduction statistique multisource par renforcement lexical
- Auteurs :
Crego Josep Maria (LIMSI-CNRS, France)
Max Aurélien (LIMSI-CNRS & Université Paris-Sud, France)
Yvon François (LIMSI-CNRS & Université Paris-Sud, France)
- Conférence : TALN
- Type : Poster
- Résumé : Les systèmes de traduction statistiques actuels intègrent différents modèles qui mettent en jeu, lors du décodage, le plus d'informations disponibles afin de produire les meilleures traductions possibles. Traduire correctement des mots polysémiques, comme par exemple le mot avocat du français vers l'anglais (lawyer ou avocado), requiert l'intégration de modèles complexes. Or, cette difficulté inhérente à la polysémie n'est pas la même en fonction des langues sources considérées. Si l'on dispose, par exemple, d'un document en espagnol dans lequel avocat a été traduit par aguacate, alors la traduction de ce mot vers l'anglais n'est pas ambiguë et permet donc de renforcer la sélection de la traduction avocado pour le système français->anglais. Dans cet article, nous proposons tout d'abord d'utiliser des documents en plusieurs langues pour renforcer par pivot les choix lexicaux faits par un système de traduction automatique. L'objectif général est d'améliorer un système pour une paire de langues L1->L2 en exploitant conjointement des traductions disponibles dans d'autres langues Li (avec i>2) et les sorties de systèmes automatiques Li->L2. Nous présentons ici deux manières d'aborder ce problème: 1) en exploitant des traductions humaines disponibles entre les langues L1 et Li, et 2) en exploitant des traductions automatiques entre les langues L1 et Li.
- Format PDF
- Article 155 : Amener des utilisateurs à créer et évaluer des paraphrases par le jeu
- Auteurs :
Bouamor Houda (LIMSI-CNRS & Université Paris-Sud 11, France)
Max Aurélien (LIMSI-CNRS & Université Paris-Sud 11, France)
Vilnat Anne (LIMSI-CNRS & Université Paris-Sud 11, France)
- Conférence : TALN
- Type : Démonstration
- Résumé : Dans cet article, nous présentons une application sur le web pour l'acquisition de paraphrases pour des énoncés ou des segments. Le mode principal correspond à un jeu contributif visant à améliorer la qualité de la rédaction des articles de l'encyclopédie en ligne Wikipedia. L'application permet l'acquisition à la fois de paraphrases et de jugements humains multiples sur ces paraphrases, ce qui constitue des données particulièrement utiles pour les applications du TAL basées sur les phénomènes paraphrastiques.
- Format PDF