Castelli Eric
Centre MICA, CNRS/UMI-2954, Hanoi, Viet Nam
- Article 25 : Exploitation d'un corpus bilingue comparable pour la création d'un système de traduction probabiliste Vietnamien - Français
- Auteurs :
Do Thi-Ngoc-Diep (Laboratoire LIG, GETALP, Grenoble, France)
Le Viet-Bac (Laboratoire LIG, GETALP, Grenoble, France)
Bigi Brigitte (Laboratoire LIG, GETALP, Grenoble, France)
Besacier Laurent (Laboratoire LIG, GETALP, Grenoble, France)
Castelli Eric (Centre MICA, CNRS/UMI-2954, Hanoi, Viet Nam)
- Conférence : TALN
- Type : Communication orale
- Résumé : Cet article présente nos premiers travaux en vue de la construction d'un système de traduction probabiliste pour le couple de langue vietnamien-français. La langue vietnamienne étant considérée comme une langue peu dotée, une des difficultés réside dans la constitution des corpus parallèles, indispensable à l'apprentissage des modèles. Nous nous concentrons sur la constitution d'un grand corpus parallèle vietnamien-français. Une méthode d'identification automatique des paires de documents parallèles fondée sur la date de publication, les mots spéciaux et les scores d'alignements des phrases est appliquée. Cet article présente également la construction d'un premier système de traduction automatique probabiliste vietnamien-français et français-vietnamien à partir de ce corpus et discute l'opportunité d'utiliser des unités lexicales ou sous-lexicales pour le vietnamien (syllabes, mots, ou leurs combinaisons). Les performances du système sont encourageantes et se comparent avantageusement à celles du système de Google.
- Format PDF
- Article 109 : Segmentation multiple d'un flux de données textuelles pour la modélisation statistique du langage
- Auteurs :
Seng Sopheap (Laboratoire LIG, France)
Besacier Laurent (Laboratoire LIG, France)
Bigi Brigitte (Laboratoire LIG, France)
Castelli Eric (Laboratoire Mica, Viet Nam)
- Conférence : TALN
- Type : Poster
- Résumé : Dans cet article, nous traitons le problème de la modélisation statistique du langage pour les langues peu dotées et sans segmentation évidente entre les mots. Tandis que le manque de données textuelles a un impact sur la performance des modèles, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Les n-grammes de mots non trouvés dans le corpus d'apprentissage peuvent l'être à cause d'erreurs de segmentation mais aussi parce qu'une séquence de caractères peut avoir plusieurs segmentations correctes mais une seule segmentation a été faite dans le corpus d'apprentissage. Pour mieux exploiter les données textuelles, nous proposons une méthode qui effectue des segmentations multiples sur une séquence de caractères au lieu d'une segmentation unique. Cette méthode basée sur les automates d'état finis permet de retrouver les n-grammes non trouvés par la segmentation unique et de générer des nouveaux n-grammes dans notre modèle. L'application de cette approche pour l'apprentissage des modèles de langage pour les systèmes de reconnaissance automatique de la parole en langue khmère et vietnamienne s'est montrée plus performante que la méthode par la segmentation unique.
- Format PDF