Morin Emmanuel
Université de Nantes, France
- Article 12 : Influence des points d'ancrage pour l'extraction lexicale bilingue à partir de corpus comparables spécialisés
- Auteurs :
Prochasson Emmanuel (Université de Nantes, France)
Morin Emmanuel (Université de Nantes, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Depuis les années 90, les recherches en extraction lexicale bilingue se sont concentrées sur les corpus comparables, c'est-à-dire des ensembles de textes multilingues n'étant pas des traductions mutuelles, mais partageant un ensemble de traits communs (le thème, le registre, la date de publication...). Ces corpus présentent plusieurs avantages. Ils sont plus largement disponibles que des corpus parallèles, en particulier concernant les langues autres que l'anglais. Par ailleurs, les documents dans chaque langues étant rédigés indépendamment (à l'inverse de corpus parallèle, où les documents cibles sont des traductions des documents sources), ils reflètent plus fidèlement des phénomènes et un vocabulaire propres à chaque langue, sans être influencés par l'écriture de documents sources. Nous nous intéressons à l'extraction lexicale à partir de petits corpus comparables (environ 250 000 mots pour chaque partie) en français, anglais et japonais. Les résultats que nous obtenons sont évidemment en dessous de ceux obtenus pour des corpus de plusieurs millions de mots (80% de traductions correctes obtenues contre 20% dans notre cas) mais cohérents avec les résultats obtenus dans la littérature pour des tailles de corpus similaires. L'approche directe que nous utilisons s'appuie sur la constitution de vecteurs de contexte, caractérisant les mots à comparer. Les vecteurs de la langue source sont traduit à partir de lexique bilingue puis sont comparés avec les vecteurs de la langue cible.
Nous proposons d'améliorer cette approche en nous appuyant sur des points d'ancrage, c'est-à-dire des mots identifiables automatiquement, en relation avec les thèmes du corpus et fiables (peu enclin à la polysémie). Nous étudions l'impact de ces points d'ancrage en nous intéressant en particulier aux translittérations en japonais (et leur correspondance en français et en anglais) ainsi qu'au mots savants (mots forgés à partir de racines grecques et latines facilement identifiables) et leurs traductions en japonais.
En augmentant le poids des points d'ancrages dans les vecteurs de contexte des mots à analyser, nous constatons une amélioration de 12 à 18% pour l'alignement anglais-japonais, et jusqu'à 10% pour l'alignement français-japonais. Nous concluons cette étude en observant l'impact effectif des points d'ancrages sur les résultats de l'alignement.
- Format PDF
- Article 36 : Apport d'un corpus comparable déséquilibré à l'extraction de lexiques bilingues
-
Auteur :
Morin Emmanuel (LINA UMR 6241, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Les principaux travaux en extraction de lexiques bilingues à partir de corpus comparables reposent sur l'hypothèse implicite que ces corpus sont équilibrés. Cependant, les différentes méthodes computationnelles associées sont relativement insensibles à la taille de chaque partie du corpus. Dans ce contexte, nous étudions l'influence que peut avoir un corpus comparable déséquilibré sur la qualité des terminologies bilingues extraites à travers différentes expériences. Nos résultats montrent que sous certaines conditions l'utilisation d'un corpus comparable déséquilibré peut engendrer un gain significatif dans la qualité des lexiques extraits.
- Format PDF
- Article 69 : Un nouveau schéma de pondération pour la catégorisation de documents manuscrits
- Auteurs :
Sebastián Peña Saldarriaga (LINA - Université de Nantes, France)
Morin Emmanuel (LINA - Université de Nantes, France)
Viard-Gaudin Christian (IRCCyN - École Polytechnique de l'Université de Nantes, France)
- Conférence : TALN
- Type : Poster
- Résumé : Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d'information (RI), ne sont pas adaptés à l'utilisation de données liées à des textes issus d'un processus de reconnaissance de l'écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d'exploiter les listes de candidats-mot. Il permet d'estimer le pouvoir discriminant d'un terme en fonction de la probabilité a posteriori d'un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.
- Format PDF