Propositions 2011 de stages de Master

Ces sujets de stages seront encadrés au sein de l'équipe
Représentation des Connaissances et Langage Naturel (RCLN)
du
Laboratoire d'Informatique de Paris-Nord (LIPN) UMR CNRS 7030
Institut Galilée - Université Paris-Nord
99, avenue Jean-Baptiste Clément, 93430 Villetaneuse

Pour tout acte de candidature, veuillez envoyer
une lettre de motivation et un CV au(x) responsable(s) du sujet



Propositions

Articuler annotation sémantique de textes et mise à jour du modèle d'annotation

Contexte

L'annotation de texte consiste à apposer sur le texte des informations ou métadonnées dont la sémantique est portée par un modèle d'annotation (formalisme et jeu d'étiquettes). Le processus d'annotation, qu'il soit manuel, automatique ou semi-automatique suppose qu'un tel modèle ait été défini au préalable pour spécifier le type et la valeur des annotations que peuvent porter différents éléments textuels.

L'annotation sémantique obéit à la même logique avec cette spécificité que les annotations ont pour objectif d'expliciter le sens porté par le document qui est annoté. L'influence des travaux issus du web sémantique et la maîtrise du clacul ontologique font que les modèles d'annotation sémantique sont souvent de nature ontologique.

Cependant, le processus habituel consiste à construire un modèle puis à annoter au regard de celui-ci et ne prévoit pas d'évolution du modèle d'annotation, ce qui pose problème dans les cas nombreux où le modèle doit évoluer (correction, précision, enrichissement, mise à jour) au cours de la phase d'annotation. Parallèlement, des outils existent pour annoter sémantiquement des textes, de manière automatique ou manuelle, au regard d'une ontologie : amaya, Firefox, SMORE, Gate's editor, Melita. Ces outils ne prennent pas non plus en compte la mise à jour dynamique du modèle en cours d'annotation et la possible réannotation du texte au regard du modèle qui est mis à jour.

Objectifs

L'objet de ce stage est de formaliser ce processus de mise à jour du modèle d'annotation au cours de l'annotation et de proposer une méthode et des outils permettant de la gérer.

Ce travail s'intégrera dans le projet ONTORULE dont l'un des enjeux est l'annotation sémantique de textes réglementaires et s'appuiera sur les pratiques existantes d'annotation, à la fois manuelle et automatique. On fera l'hypothèse que le modèle d'annotation est de nature ontologique, même si d'autres types de modèles peuvent être envisagés. Il s'agira :

  1. de recenser les types de modifications nécessaires sur la base de l'analyse des cas d'usage du projet ONTORULE (ajout, suppression, modification de certaines unités ontologique, restructuration de l'ontologie, modification des connaissances lexicales associées) ;
  2. de définir une stratégie de mise-à-jour pour ces différents types de modifications ;
  3. d'implémenter certaines de ces stratégies sur un outil d'annotation existant ;
  4. de tester et d'évaluer les stratégies proposées au regard de l'analyse des besoins effectuées au point 1.

Conditions

Stage de 4 à 6 mois, rémunéré.

Responsable

Francois Levy (email : Francois.Levy@lipn.univ-paris13.fr)

Fichier pdf de description du stage


Fusion d'annotation concurrentes : exercice sur les étiquettes morphosyntaxiques

Contexte

L'annotation de documents étant au cœur d'applications constituant actuellement des enjeux stratégiques (analyse de documents, recherche d’information, traduction automatique...), il est naturel que la discipline du Traitement Automatique des Langues (TAL) lui consacre d’importants efforts. Dans ce cadre, le LIPN propose une approche pour la création d'un système d'annotations générique qui permet l'usage d'annotations concurrentes. Des annotations concurrentes sont des ensembles d'annotations indépendants entre eux concernant un même texte ; le tout ne respecte donc pas nécessairement les règles de bonne formation des annotations. Ce système est implémenté dans le contexte d'une plateforme d'annotation utilisant le framework UIMA.

Mission

L'objectif de ce stage est la fusion de différents jeux d'annotations concurrentes du type étiquettes morphosyntaxiques. Il s'agit donc de construire un méta-composant potentiellement plus performant que chacun des composants pris individuellement. Ce méta-composant peut tout à fait intervenir a posteriori en utilisant des annotations qui sont habituellement faites en aval, et donc inaccessibles pour un composant pris individuellement.

Ce stage devrait se dérouler de la manière suivante :

Profil recherché

Bac + 5 en informatique

Les compétences en développement Java et en TAL seront appréciées lors de l'examen des candidatures.

Conditions

Stage de 4 à 6 mois, rémunéré.

Responsables

Laurent Audibert (email : laurent.audibert at lipn.univ-paris13.fr)

Francois Levy (email : Francois.Levy@lipn.univ-paris13.fr)


Accueil