Crabbé Benoit
Paris 7 / Inria, France
- Article 119 : Analyse syntaxique statistique du Français : des constituants aux dépendances
- Auteurs :
Crabbé Benoit (Paris 7 / Inria, France)
Candito Marie (Paris 7 / Inria, France)
Denis Pascal (Inria, France)
Guérin François (INRIA, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Cet article présente une technique d'analyse syntaxique statistique à la fois en constituants et en dépendances.
L'analyse procède en ajoutant des étiquettes fonctionnelles aux sorties d'un analyseur en constituants, entraîné sur le French Treebank, pour permettre l'extraction de dépendances
typées.
D'une part, nous spécifions d'un point de vue formel et
linguistique les structures de dépendances à produire, ainsi que la
procédure de conversion du corpus en constituants (le French
Treebank) vers un corpus cible annoté en dépendances, et partiellement validé.
D'autre part, nous décrivons l'approche algorithmique qui permet de réaliser automatiquement le typage des dépendances en sortie d'analyse. En particulier, nous nous focalisons sur les méthodes d'apprentissage discriminantes d'étiquetage en fonctions grammaticales.
- Format PDF
- Article 138 : Adaptation de parsers statistiques lexicalisés pour le français : Une évaluation complète sur corpus arborés
- Auteurs :
Seddah Djamé (Université Paris-Sorbonne (Paris 4), France)
Candito Marie (Université Paris 7, France)
Crabbé Benoit (Université Paris 7, France)
- Conférence : TALN
- Type : Poster
- Résumé : Cet article présente les résultats d'une évaluation exhaustive des principaux analyseurs syntaxiques probabilistes dit "lexicalisés" initialement conçus pour l'anglais, adaptés pour le français et évalués sur le CORPUS ARBORÉ DU FRANÇ AI S (Abeillé et al., 2003) et le MODIFIED FRENCH TREEBANK (Schluter & van Genabith, 2007).
Confirmant les résultats de (Crabbé & Candito, 2008), nous montrons que les modèles lexicalisés, à travers les modèles de Charniak (Charniak, 2000), ceux de Collins (Collins, 1999) et le modèle des TIG Stochastiques (Chiang, 2000), présentent des performances moindres face à un analyseur PCFG à Annotation Latente ((Petrov et al., 2006) et ce, quelque soit le jeu d'annotation du treebank.
De plus, nous montrons que le choix d'un jeu d'annotations issus de tel ou
tel treebank oriente fortement les résultats d'évaluations tant en constituance qu'en dépendance non typée. Comparés à (Schluter & van Genabith, 2008) et (Arun & Keller, 2005), tout nos résultats sont state-of-the-art et infirment l'hypothèse d'une difficulté particulière qu'aurait le français en terme d'analyse syntaxique probabiliste et de sources de données.
- Format PDF