Molinero Miguel Angel
Grupo LYS, Univ. de A Coruña, Spain
- Article 111 : Trouver et confondre les coupables: un processus sophistiqué de correction de lexique.
- Auteurs :
Nicolas Lionel (Equipe RL, Laboratoire I3S, UNSA + CNRS, France)
Sagot Benoît (Projet ALPAGE, INRIA Rocquencourt + Paris 7, France)
Molinero Miguel Angel (Grupo LYS, Univ. de A Coruña, Spain)
Farré Jacques (Equipe RL, Laboratoire I3S, UNSA + CNRS, France)
De La Clergerie Eric (Projet ALPAGE, INRIA Rocquencourt + Paris 7, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : La couverture d'un analyseur dépend avant tout de la grammaire sous-jacente et du lexique sur lequel il repose. Le développement d'un lexique à la fois complet et précis est une tâche ardue et de longue haleine. Dans cet article, nous présentons un processus capable de détecter automatiquement des entrées manquantes, incomplètes ou erronées d'un lexique morpho-syntaxique, et de suggèrer des hypothèses de corrections pour les dites entrées. La détection d'entrées lexicales suspectes se réalise au moyen de deux techniques différentes : l'une reposant sur un modèle statistique; l'autre utilisant les informations fournies par un étiqueteur syntaxique.
Les hypothèses de correction pour les entrées lexicales supectées sont générées en étudiant les modifications qui permettent d'améliorer le taux d'analyses résussies des phrases dans lesquelles les entrées suspectées apparaissent.
L'ensemble combine des techniques variées faisant intervenir des outils diverses tel qu'un étiqueteur, un analyseur syntaxique ou un classifieur d'entropie.
Son application au lefff, un lexique morphologique et syntaxique à large couverture de la langue française, a déjà permis des améliorations notables.
- Format PDF