Rioult François
GREYC, Université de Caen, France
- Article 77 : Repérer automatiquement les segments obsolescents à l'aide d'indices sémantiques et discursifs
- Auteurs :
Laignelet Marion (CLLE-ERSS, Université Toulouse 2 - Le Mirailf, France)
Rioult François (GREYC, Université de Caen, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Cet article vise la description et le repérage automatique de l'obsolescence présent dans les documents de type encyclopédique. Nous supposons, malgré le caractère non linguistique de ce phénomène, que des indices sémantiques et discursifs peuvent permettre le repérage de ces segments. Pour ce faire, nous travaillons sur un corpus annoté manuellement par des experts sur lequel nous projetons des indices repérés automatiquement. Les techniques statistiques de base ne permettent pas d'expliquer ce phénomène complexe. Nous proposons l'utilisation de techniques de fouille de données pour le caractériser et nous évaluons le pouvoir prédictif de nos indices. Nous montrons, à l'aide de techniques de classification supervisée et de calcul de l'aire sous la courbe ROC, que nos hypothèses sont pertinentes.
- Format PDF