Contexte
L'annotation de texte consiste à apposer sur le texte des informations ou métadonnées dont la sémantique est portée par un modèle d'annotation (formalisme et jeu d'étiquettes). Le processus d'annotation, qu'il soit manuel, automatique ou semi-automatique suppose qu'un tel modèle ait été défini au préalable pour spécifier le type et la valeur des annotations que peuvent porter différents éléments textuels.
L'annotation sémantique obéit à la même logique avec cette spécificité que les annotations ont pour objectif d'expliciter le sens porté par le document qui est annoté. L'influence des travaux issus du web sémantique et la maîtrise du clacul ontologique font que les modèles d'annotation sémantique sont souvent de nature ontologique.
Cependant, le processus habituel consiste à construire un modèle puis à annoter au regard de celui-ci et ne prévoit pas d'évolution du modèle d'annotation, ce qui pose problème dans les cas nombreux où le modèle doit évoluer (correction, précision, enrichissement, mise à jour) au cours de la phase d'annotation. Parallèlement, des outils existent pour annoter sémantiquement des textes, de manière automatique ou manuelle, au regard d'une ontologie : amaya, Firefox, SMORE, Gate's editor, Melita. Ces outils ne prennent pas non plus en compte la mise à jour dynamique du modèle en cours d'annotation et la possible réannotation du texte au regard du modèle qui est mis à jour.
Objectifs
L'objet de ce stage est de formaliser ce processus de mise à jour du modèle d'annotation au cours de l'annotation et de proposer une méthode et des outils permettant de la gérer.
Ce travail s'intégrera dans le projet ONTORULE dont l'un des enjeux est l'annotation sémantique de textes réglementaires et s'appuiera sur les pratiques existantes d'annotation, à la fois manuelle et automatique. On fera l'hypothèse que le modèle d'annotation est de nature ontologique, même si d'autres types de modèles peuvent être envisagés. Il s'agira :
Conditions
Stage de 4 à 6 mois, rémunéré.
Responsable
Francois Levy (email : Francois.Levy@lipn.univ-paris13.fr)
Contexte
L'annotation de documents étant au cœur d'applications constituant actuellement des enjeux stratégiques (analyse de documents, recherche d’information, traduction automatique...), il est naturel que la discipline du Traitement Automatique des Langues (TAL) lui consacre d’importants efforts. Dans ce cadre, le LIPN propose une approche pour la création d'un système d'annotations générique qui permet l'usage d'annotations concurrentes. Des annotations concurrentes sont des ensembles d'annotations indépendants entre eux concernant un même texte ; le tout ne respecte donc pas nécessairement les règles de bonne formation des annotations. Ce système est implémenté dans le contexte d'une plateforme d'annotation utilisant le framework UIMA.
Mission
L'objectif de ce stage est la fusion de différents jeux d'annotations concurrentes du type étiquettes morphosyntaxiques. Il s'agit donc de construire un méta-composant potentiellement plus performant que chacun des composants pris individuellement. Ce méta-composant peut tout à fait intervenir a posteriori en utilisant des annotations qui sont habituellement faites en aval, et donc inaccessibles pour un composant pris individuellement.
Ce stage devrait se dérouler de la manière suivante :
Profil recherché
Bac + 5 en informatique
Les compétences en développement Java et en TAL seront appréciées lors de l'examen des candidatures.
Conditions
Stage de 4 à 6 mois, rémunéré.
Responsables
Laurent Audibert (email : laurent.audibert at lipn.univ-paris13.fr)
Francois Levy (email : Francois.Levy@lipn.univ-paris13.fr)