Karën FORT
Doctorante - Equipe Représentation des Connaissances et
Langage Naturel (RCLN)
|
 |
Sujet de thèse
- Les ressources annotées, un enjeu pour l'analyse de
contenu : vers une méthodologie de l'annotation manuelle de
corpus (dir. Adeline
Nazarenko)
Intérêts
Je m'intéresse aux ressources linguistiques (lexiques ou
corpus), et plus particulièrement aux méthologies qui
président à leur construction.
Actualités
- Collaboration avec G.
Peeters (IRCAM) sur la définition d'une méthodologie pour
l'annotation d'audio musical.
- Collaboration avec M.
Lafourcade (LIRMM), J. Chamberlain, U. Kruschwitz, M. Poesio
(University of Essex) sur la création de ressources langagières par
collaboration.
- Groupe de travail sur les accords inter-annotateurs en TAL
(LIMSI, LNE, GREYC).
- 9 mars 2012 : Journée Annotation de corpus, MSH-Lorraine, Nancy (présentation invitée)
Annotation manuelle de corpus : mais de quoi parle‐t‐on ?
On assiste depuis les années 90 à un regain
dʹintérêt pour les corpus, en particulier les corpus
annotés, et ce dans de nombreux domaines de recherche. Ces
corpus annotés doivent offrir la meilleure qualité
dʹannotation possible, et nécessitent donc de faire intervenir
des experts humains dans le processus dʹannotation, que ce soit pour
annoter
directement le corpus ou pour corriger une annotation
réalisée automatiquement. Or, cette phase manuelle est
extrêmement fastidieuse et nécessite un travail de longue
haleine et de qualité si possible constante. Il nʹexiste
cependant à ce jour aucune grille permettant dʹévaluer
précisément la complexité de lʹannotation
envisagée. Les
difficultés que présente lʹétiquetage
morpho‐syntaxique du Hindi ne sont pas les même que pour de
lʹannotation de renommages de gènes ou de structure de textes
médiévaux, mais on peine à les définir,
donc à les réduire.
- Post sur Amazon Mechanical Turk sur le blog du MIT Follow the Crowd.
- Annotation d'entités nommées (presse ancienne et
transcription de nouvelles radiodiffusées) en collaboration avec
le LIMSI
- Annotation d'entités nommées et de relations
sémantiques dans le domaine du football, en collaboration avec
l'équipe TexMex de l'IRISA
- Annotation
d'entités nommées, de termes et de relations
sémantiques en pharmacologie (brevets), en collaboration avec
Jouve
- Annotation de renommage de gènes (notices PubMed), en
collaboration avec l'équipe MIG
de l'INRA Jouy en Josas
- Annotation d'entités nommées en microbiologie (notices PubMed),
en collaboration avec l'équipe MIG
de l'INRA Jouy en Josas
Activités périphériques
- Membre du comité de lecture (scientifique) pour LREC 2012
- Membre du comité de lecture pour TALN
2011 et 2012
- Relectrice deuxième niveau pour TIA 2011
- Co-organisatrice du Workshop interne Quaero sur l'annotation
manuelle de corpus multimédia (texte, parole, musique,
vidéo)
- Membre du Conseil d'Administration de l'ATALA
- Membre du Comité d'Organisation de NaTAL 2008