Influence des points d'ancrage pour l'extraction lexicale bilingue à partir de corpus comparables spécialisés
TALN (Communication orale)
- Auteurs :
Prochasson Emmanuel (Université de Nantes, France)
Morin Emmanuel (Université de Nantes, France)
- Résumé : Depuis les années 90, les recherches en extraction lexicale bilingue se sont concentrées sur les corpus comparables, c'est-à-dire des ensembles de textes multilingues n'étant pas des traductions mutuelles, mais partageant un ensemble de traits communs (le thème, le registre, la date de publication...). Ces corpus présentent plusieurs avantages. Ils sont plus largement disponibles que des corpus parallèles, en particulier concernant les langues autres que l'anglais. Par ailleurs, les documents dans chaque langues étant rédigés indépendamment (à l'inverse de corpus parallèle, où les documents cibles sont des traductions des documents sources), ils reflètent plus fidèlement des phénomènes et un vocabulaire propres à chaque langue, sans être influencés par l'écriture de documents sources. Nous nous intéressons à l'extraction lexicale à partir de petits corpus comparables (environ 250 000 mots pour chaque partie) en français, anglais et japonais. Les résultats que nous obtenons sont évidemment en dessous de ceux obtenus pour des corpus de plusieurs millions de mots (80% de traductions correctes obtenues contre 20% dans notre cas) mais cohérents avec les résultats obtenus dans la littérature pour des tailles de corpus similaires. L'approche directe que nous utilisons s'appuie sur la constitution de vecteurs de contexte, caractérisant les mots à comparer. Les vecteurs de la langue source sont traduit à partir de lexique bilingue puis sont comparés avec les vecteurs de la langue cible.
Nous proposons d'améliorer cette approche en nous appuyant sur des points d'ancrage, c'est-à-dire des mots identifiables automatiquement, en relation avec les thèmes du corpus et fiables (peu enclin à la polysémie). Nous étudions l'impact de ces points d'ancrage en nous intéressant en particulier aux translittérations en japonais (et leur correspondance en français et en anglais) ainsi qu'au mots savants (mots forgés à partir de racines grecques et latines facilement identifiables) et leurs traductions en japonais.
En augmentant le poids des points d'ancrages dans les vecteurs de contexte des mots à analyser, nous constatons une amélioration de 12 à 18% pour l'alignement anglais-japonais, et jusqu'à 10% pour l'alignement français-japonais. Nous concluons cette étude en observant l'impact effectif des points d'ancrages sur les résultats de l'alignement.
- Format PDF