Viard-Gaudin Christian
IRCCyN - École Polytechnique de l'Université de Nantes, France
- Article 69 : Un nouveau schéma de pondération pour la catégorisation de documents manuscrits
- Auteurs :
Sebastián Peña Saldarriaga (LINA - Université de Nantes, France)
Morin Emmanuel (LINA - Université de Nantes, France)
Viard-Gaudin Christian (IRCCyN - École Polytechnique de l'Université de Nantes, France)
- Conférence : TALN
- Type : Poster
- Résumé : Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d'information (RI), ne sont pas adaptés à l'utilisation de données liées à des textes issus d'un processus de reconnaissance de l'écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d'exploiter les listes de candidats-mot. Il permet d'estimer le pouvoir discriminant d'un terme en fonction de la probabilité a posteriori d'un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.
- Format PDF