Ehrmann Maud
XRCE, France
- Article 24 : Une expérience de fusion pour l'annotation d'entités nommées
- Auteurs :
Brun Caroline (XRCE, France)
Dessaigne Nicolas (Arisem, France)
Ehrmann Maud (XRCE, France)
Gaillard Baptiste (Thalès, France)
Guillemin-Lanne Sylvie (Temis, France)
Jacquet Guillaume (XRCE, France)
Kaplan Aaron (XRCE, France)
Kucharski Marianna (Temis, France)
Martineau Claude (IGM-LabInfo Université Paris-Est, France)
Migeotte Aurélie (Arisem, France)
Nakamura Takuya (IGM-LabInfo Université Paris-Est, France)
Voyatzi Stavroula (IGM-LabInfo Université Paris-Est, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Nous présentons une expérience de fusion d'annotations d'entités nommées provenant de différents annotateurs. Ce travail a été réalisé dans le cadre du projet Infom@gic, projet visant à l'intégration et à la validation d'applications opérationnelles autour de l'ingénierie des connaissances et de l'analyse de l'information et soutenu par le pôle de compétitivité Cap Digital « Image, MultiMédia et Vie Numérique ». Nous décrivons tout d'abord les quatre annotateurs d'entités nommées à l'origine de cette expérience. Chacun d'entre eux fournit des annotations d'entités conformes à une norme développée dans le cadre du projet Infom@gic. L'algorithme de fusion des annotations est ensuite présenté ; il permet de gérer la compatibilité entre annotations et de mettre en évidence les conflits, et ainsi de fournir des informations plus fiables. Nous concluons en présentant et interprétant les résultats de la fusion, obtenus sur un corpus de référence annoté manuellement.
- Format PDF
- Article 31 : Proposition de caractérisation et de typage des expressions temporelles en contexte
- Auteurs :
Ehrmann Maud (Xerox Research Centre Europe , France)
Hagège Caroline (Xerox Research Centre Europe , France)
- Conférence : TALN
- Type : Communication orale
- Résumé : Nous assistons actuellement en TAL à un regain d'intérêt pour le traitement de la temporalité dans les textes. Dans cet article, nous présentons une proposition de caractérisation et de typage des expressions temporelles tenant compte des travaux effectués dans ce domaine tout en cherchant à pallier les manques et incomplétudes de certains de ces travaux. Nous explicitons comment nous nous situons par rapport à l'existant et les raisons pour lesquelles parfois nous nous en démarquons. Le typage que nous définissons met en évidence de réelles différences dans l'interprétation et le mode de résolution référentielle d'expressions qui, en surface, paraissent similaires ou identiques. Nous proposons un ensemble des critères objectifs et linguistiquement motivés permettant de reconnaître, de segmenter et de typer ces expressions. Nous verrons que cela ne peut se réaliser sans considérer les procès auxquels ces expressions sont associées et un contexte parfois éloigné.
- Format PDF
- Article 76 : Vers une méthodologie d'annotation des entités nommées en corpus ?
- Auteurs :
Fort Karën (INIST, France)
Ehrmann Maud (XRCE, France)
Nazarenko Adeline (LIPN, France)
- Conférence : TALN
- Type : Communication orale
- Résumé : La tâche, aujourd'hui considérée comme fondamentale, de reconnaissance d'entités nommées présente des difficultés spécifiques en matière d'annotation. Nous les précisons ici, en les illustrant par des expériences d'annotation manuelle menées dans le cadre du projet Quaero dans le domaine de la microbiologie. Ces problèmes nous amènent à reposer la question fondamentale de ce que les annotateurs doivent annoter et surtout, pour quoi faire. Nous identifions pour cela les applications nécessitant l'extraction d'entités nommées, puis, en fonction des besoins de ces applications, nous proposons de définir sémantiquement les éléments à annoter. Nous proposons ensuite un certain nombre de recommandations méthodologiques permettant d'assurer un cadre d'annotation cohérent et évaluable.
- Format PDF