Propositions 2010 de stages de Master

Ces sujets de stages seront encadrés au sein de l'équipe
Représentation des Connaissances et Langage Naturel (RCLN)
du
Laboratoire d'Informatique de Paris-Nord (LIPN) UMR CNRS 7030
Institut Galilée - Université Paris-Nord
99, avenue Jean-Baptiste Clément, 93430 Villetaneuse

Pour tout acte de candidature, veuillez envoyer
une lettre de motivation et un CV au(x) responsable(s) du sujet



Propositions

Indexation et recherche d'information sémantiques (stage attribué !)

Contexte

L'utilisation d'ontologies dans le cadre d'une recherche d'information a pour but de dépasser les limites d'une recherche classique par mots clés. Le Web sémantique propose une infrastructure qui permet de mettre en place une recherche sémantique.

La vision implicite du Web Sémantique repose sur les hypothèses suivantes :

Actuellement, même s'il existe de plus en plus d'ontologies, il est difficile de trouver une ontologie qui couvre la totalité des connaissances d'une base documentaire et qui permettrait de ce fait d'accéder à toute l'information contenue dans cette base. L'idée est donc de proposer des méthodes d'indexation et de recherche d'information qui exploitent la sémantique représentée dans une ontologie (par opposition à la sémantique latente, LSI[1]) mais également le texte lui-même pour ne pas être restreint par la couverture de l'ontologie [4].

Objectifs

Profil recherché

Conditions

Bac + 5 (Master pro ou recherche ou dernière année ingénieur) orienté informatique.
Stage de 4 à 6 mois, rémunéré.

Responsable

Sylvie Salotti (email : sylvie.salotti at lipn.univ-paris13.fr)
Haïfa Zargayouna (email : haifa.zargayouna at lipn.univ-paris13.fr)

Liens et références

[1] S. Deerwester, Susan Dumais, G. W. Furnas, T. K. Landauer, R. Harshman (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information  Science 41 (6): 391?407.
[2] G. Salton , A. Wong , CS Yang (1975) A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975
[3] Z. Wu & M. Palmer (1994) Verb Semantics and Lexical Selection, Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, pages 133-138.
[4] H. Zargayouna (2005) "Indexation sémantique de documents XML" Thèse, Université Paris-Sud.
[5] http://lucene.apache.org/


Ontology Reasoning for Text Processing

Context

In recent decades, the study of « meaning » (or « semantics ») has gotten a high-speed progress because of the dramatic expansion of documents within enterprises and on the web. To this end, Semantic Web [1] has been proposed as the next generation of web, where semantics plays a key role. It has been gaining momentum driven by World Wide Web Consortium (W3C, http://www.w3.org) since 2001. A typical research under Semantic Web is to study ontology languages [2], such as OWL which is standardized by W3C and has Description Logics [3] as its formal semantic underpinning. It is remarkable to see that many scalable reasoners are implemented for different profiles of OWL.

Advanced or domain-oriented text processing systems can benefit significantly from the access to ontologies [4]. Among many, three important advantages are as follows:

  1. Unlike word-based systems, ontology can consist of concepts not specifically found in a document;
  2. Ontology has the well-defined semantics which can express information without ambiguity such that data are machine-readable;
  3. Benefit from the growing of Semantic Web research, numerous ontology-oriented tools are available, so we can flexibly access ontology reasoning techniques. In all, the study of ontology reasoning for text processing systems is valuable.

Description of work

Supported by the Quaero program, the goal of this internship is to study how advanced ontology reasoning techniques can contribute to text processing systems. One of the main topics is to study and evaluate the ontology reasoning based metrics to improve semantic annotations on texts, where semantic annotation is to tag fragments of texts by suitable ontological elements, which makes texts machine processible via the semantics of the ontology.

This work concerns two layers of techniques: ontology reasoning (logics) and text processing (information extraction). Relevant existing approaches are mostly based on the assumption that the information extraction is a black-box and not interactive even if errors may be detected in ontological annotations. We are interested in getting over this disadvantage in our semantic annotation platform. It will contain several steps:

  1. Analysis of domain corpus on which semantic annotations are made;
  2. Checking the inconsistency of those annotations by ontology reasoners;
  3. Design metrics to measure the quality of the annotation rules which are used to generate semantic annotations.
  4. Evaluation of this approach.

The benefits of this work are to associate a certainty degree of reliability to each annotation and to exclude bad annotation rules for further annotation procedures. The continuing progress of this work is promising and can include the following aspects, such as inconsistency handling techniques for handling content conflictions in texts; text-based ontology matching technique; and developing extra reasoning services for text processing.

Desired background

Bac + 5 in Computer Science, able to work in English.
Skills in Computer Science and in NLP will be appreciated when studying applications.

Conditions

Six months internship, supported by a project.
In case of success, the internship might be continued by a PhD supported by a project.

Responsable

Yue Ma (email : yue.ma at lipn.univ-paris13.fr)

Bibliography

  1. Tim Berners-Lee, James Hendler, and Ora Lassila. The Semantic Web. Scientific American, 284(5):35-43, 2001.
  2. Ian Horrocks: Ontologies and the semantic web. Commun. ACM 51(12): 58-67 (2008)
  3. Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi, and Peter F. Patel-Schneider, editors. The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge University Press, 2003.
  4. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Ronen Feldman, James Sanger, Cambridge university press, 2007.

Fichier pdf de description du stage.


Analyse d'un corpus de textes réglementaires : typologie et règles d'extraction

Contexte

Si on a historiquement demandé aux informaticiens de construire des systèmes experts et à base de connaissances pour automatiser des processus de décision des organisations, on cherche aujourd'hui à donner une capacité de contrôle de ces systèmes aux personnes du domaine : elles doivent pouvoir sinon écrire les règles du système, du moins les vérifier et les mettre à jour quand nécessaire.

Dans ce contexte, il est important d'intégrer la documentation aux systèmes d'information des entreprises : c'est souvent à partir des documents techniques que les connaissances servant à la prise de décision sont élaborées et donc se justifient.

Le stagiaire doit rejoindre le projet européen ONTORULE portant sur les systèmes de gestion des règles métiers (règles de calcul des impôts, d'attribution de bonus, de location de véhicules, etc.). L'un des objectifs de ce projet est d'intégrer les textes réglementaires aux systèmes de gestion des règles de manière à expliquer les décisions prises et à maintenir la base de règles en phase avec la documentation lorsque cette dernière évolue (ou réciproquement).

Objectifs

Le but de ce stage est de constituer et d'analyser un corpus de textes réglementaires pour spécifier un système d'extraction des règles métiers. Il ne s'agit pas d'extraire automatiquement des règles métiers des corpus réglementaires mais de repérer les différents types de marqueurs de règles pour permettre d'isoler les passages de textes les plus réglementaires. Les marqueurs de règles et le volume de données à analyser pouvant varier beaucoup d'un corpus à l'autre, cette analyse doit s'appuyer sur une typologie des corpus réglementaires, l'idéal étant de pouvoir identifier des critères formels permettant de déterminer quelle la stratégie d'extraction est à adopter pour quels textes.

Plan de travail :

  1. Constituer un corpus de textes réglementaires de langue anglaise. Quelques corpus sont d'ores et déjà disponibles mais il s'agira d'étoffer cette base initiale, à partir d'une recherche personnelle sur le web et en sollicitant les partenaires du projet.
  2. Proposer une typologie des textes réglementaires adaptée au problème de l'extraction des règles métiers et de la gestion documentaire. A chaque type de textes doit pouvoir être associé une stratégie d'extraction et une forme d'intégration dans le système de gestion des règles. Les critères de volume, de redondance, de cohérence de la documentation, de clarté et de régularité de la rédaction seront évidemment à prendre en compte. Cette typologie devra autant que faire se peut reposer sur des critères formels et donc objectivables.
  3. Sélectionner quelques textes de types différents à titre d'échantillon et en faire une analyse contrastive. L'objectif est de concevoir une stratégie d'extraction adaptée à chacun d'eux.
  4. Proposer des bases de règles d'extraction adaptés aux textes de l'échantillon en question. Ces règles pourront s'appuyer sur une analyse linguistique préalable des textes mais il faudra la préciser. On s'attachera à bien distinguer les règles génériques de celles qui sont relatives à un corpus particulier. Ce travail d'écriture des règles d'extraction suppose d'avoir choisi un langage pour décrire ces règles d'extraction. Le stagiaire pourra s'appuyer sur les travaux en cours de l'équipe RCLN sur ce sujet mais il devra choisir un langage de règles d'extraction adapté à son problème.
  5. Tester ces règles sur les textes du corpus de départ et comparer la qualité d'extraction obtenue sur l'échantillon et sur le reste du corpus. On s'appuiera pour se faire sur des mesures de qualité classiques ou sur celles qui sont en cours de définition au sein de l'équipe RCLN.

Profil recherché

Bac + 5 en linguistique informatique ou en TAL.
Des compétences en analyse de corpus et en TAL seront appréciées lors de l'examen des candidatures.

Conditions

Stage de 6 mois, financé sur projet. Le candidat rejoindra un laboratoire d'informatique, le LIPN, et sera intégré dans l'équipe RCLN. Il pourra travailler en collaboration directe avec les différentes personnes impliquées dans le projet ONTORULE (enseignants-chercheurs, doctorants, post-doctorant et ingénieur de recherche).
En cas de succès, ce stage pourra se poursuivre par une thèse ou un contrat d'ingénieur de recherche.

Responsable

François Lévy (email : francois.levy at lipn.univ-paris13.fr)
Adeline Nazarenko (email : adeline.nazarenko at lipn.univ-paris13.fr)

Référence

Abdoulaye Guissé, François Lévy, Adeline Nazarenko, Sylvie Szulman. « Annotation sémantique pour l'indexation de règles métiers », in Actes de la Conférence Internationale sur la Terminologie et l'Intelligence Artificielle (TIA 2009), Marie-Claude L'Homme, Sylvie Szulman (Eds.), Toulouse (France), (version électronique, 11 pages), nov. 2009.

Fichier pdf de description du stage.


Réalisation d'un système d'annotation de texte à partir d'ontologies (stage attribué !)

Contexte

Au cours des dernières années, de nouveaux systèmes d'analyse de textes reposant sur une approche d'annotation sémantique ont vu le jour. Ces systèmes décrivent le contenu d'un texte en liant ce dernier à une ontologie. Ils proposent donc une interprétation du texte au regard de l'ontologie considérée. Cette approche prend tout son sens dans le cadre du Web Sémantique. En tant que système sémantique formel, l'ontologie définit une manière standardisée de coder les connaissances (sous la forme de concepts, d'instances et de rôles conceptuels) qui donne une vue nécessairement partielle du contenu du texte mais qui supporte des raisonnements qui ne peuvent être faits sur le texte de départ.

Ce stage s'inscrit dans le cadre du programme Quaero dont l'un des objectifs consiste à annoter sémantiquement des documents, les annotations produites étant utilisées par différents systèmes documentaires (recherche d'information sémantique, catégorisation de documents, etc.).

Mission

Le but de ce stage est de développer un module d'annotation sémantique qui prend en entrée un document – éventuellement déjà partiellement analysé –, une ontologie ainsi que des règles d'annotation attachées à l'ontologie et qui produit en sortie un texte annoté au regard de l'ontologie de départ. Toute la difficulté consiste à prendre en compte une grande diversité de règles d'annotation : certaines peuvent être très simples – comme l'association d'un terme non ambigu à un concept – mais d'autres, plus complexes, s'expriment sous la forme d'expressions régulières ou nécessitent des calculs probabilistes. Il faut également s'appuyer sur un premier étiquetage du texte lorsque celui-ci est fourni par des outils d'analyse linguistique (étiquetage morpho-syntaxique, terminologique, etc.).

Ce module d'annotation devra pouvoir être interfacé avec différents outils développés au sein du LIPN, ce qui nécessitera un travail de conception initial très rigoureux. La complexité des problèmes d'annotation et le volume de données à traiter supposera également une analyse approfondie des différentes solutions techniques permettant d'appliquer un ensemble de règles d'annotation sur un corpus textuel et du travail de développement.

Une fois développé le système d'annotation initial, deux pistes de travail pourront être explorées selon le profil et les goûts du candidat :

Profil recherché

Bac + 5 en informatique
Les compétences en informatique et en TAL seront appréciées lors de l'examen des candidatures.

Conditions

Stage de 6 mois, financé sur projet.
En cas de succès, ce stage pourra se poursuivre par une thèse financée sur projet.

Responsable

Laurent Audibert (email : laurent.audibert at lipn.univ-paris13.fr)
Adeline Nazarenko (email : adeline.nazarenko at lipn.univ-paris13.fr)

Références

  1. Amardeilh F. (2007). Web sémantique et informatique linguistique : propositions méthodologiques et réalisation d'une plateforme logicielle. In Thèse de doctorat, Univ. Paris X, p. 223–253.
  2. Abdoulaye Guissé, François Lévy, Adeline Nazarenko, Sylvie Szulman. « Annotation sémantique pour l'indexation de règles métiers », in Actes de la Conférence Internationale sur la Terminologie et l'Intelligence Artificielle (TIA 2009), Marie-Claude L'Homme, Sylvie Szulman (Eds.), Toulouse (France), (version électronique, 11 pages), nov. 2009.
  3. Kalyanpur A., Hendler J., Parsia B. & Golbeck J. (2003). Smore - semantic markup, ontology, and rdf editor. In http ://www.mindswap.org/papers/SMORE.pdf.
  4. Ma Y., Audibert L. & Nazarenko A. (2009). Ontologies étendues pour l'annotation sémantique. In F. L. Gandon, Ed., Actes des 20es Journées Francophones d'Ingénierie des Connaissances (IC 2009), p. 205–216, Hammamet, Tunisie : PUG.
  5. Uren V., Cimiano P., Iria J., Handschuh S., Vargas-Vera M., Motta E. & Ciravegna F. (2006). Semantic annotation for knowledge management : Requirements and a survey of the state of the art. Journal of Web Semantics, 4.

Fichier pdf de description du stage.


Réalisation et évaluation d'un système d'extraction de relations sémantiques (stage attribué !)

Contexte

L'extraction de relations sémantiques est depuis longtemps reconnue comme une tâche clef du processus d'acquisition de connaissances à partir de textes. Elle a été considérée sous différents angles (pour la construction d'ontologies et la création de rôles entre concepts, pour l'extraction d'information et le remplissage de formulaires, pour l'analyse rhétorique, etc.) et a fait l'objet de nombreux travaux. Deux grandes familles de méthodes sont utilisées pour l'extraction de relations sémantiques des textes :

Objectifs

L'objectif de ce stage est de développer un module d'extraction de relations sémantiques qui combine ces deux approches comme cela a été proposé dans [2] et à l'évaluer dans le cadre d'un processus de construction d'ontologies à partir de textes.

Ce travail pose une double difficulté :

Plan de travail :

  1. Analyse de la méthode proposée dans [2] et confrontation avec l'état de l'art.
  2. Conception et analyse de la méthode proposée.
  3. Expérimentation sur des corpus de tests et analyse des résultats.
  4. Comparaison avec des méthodes à base de patrons et des méthodes statistiques sur les mêmes corpus. Cela pourra être fait soit à partir d'outils existants soit en collaboration avec des membres de l'équipe RCLN.
  5. Selon la qualité des résultats obtenus, des variantes de la méthodes initiales pourront être proposées et testées.
  6. Recommandation pour l'intégration d'une méthode d'extraction de relations sémantiques dans une plate-forme de construction d'ontologies telle que Terminae [3] ou Dafoe [4].

Profil recherché

Bac + 5 en informatique.
Des compétences en informatique et en TAL seront appréciées lors de l'examen des candidatures.

Conditions

Stage de 6 mois, financé sur projet.
En cas de succès, ce stage pourra se poursuivre par une thèse financée sur projet.

Responsable

Sylvie Szulman (email : sylvie.szulman at lipn.univ-paris13.fr)
Adeline Nazarenko (email : adeline.nazarenko at lipn.univ-paris13.fr)

Références

[1]Nathalie Aussenac-Gilles, Nathalie Hernandez. Du linguistique au conceptuel : étapes de l'identification de relations conceptuelles à partir de textes. Atelier "Acquisition et modélisation de relations sémantiques" associé à la conférence TIA 2009, Toulouse, nov. 2009, Sylvie Despres, Natalia Grabar (Eds.).
[2]Rim Bentebibel, Adeline Nazarenko, Sylvie Szulman. « Un système d'aide à l'extraction de relations sémantiques pour la construction d'ontologies à partir de textes », in Actes des 10ème journées Francophones Extraction et Gestion des Connaissances (EGC 2010), pp. 483-494, Hammamet, Tunisie, janv. 2010.
[3]Brigitte Biébow, Sylvie Szulman. « TERMINAE: A Linguistic-Based Tool for the Building of a Domain Ontology ». Proceedinfs of EKAW 1999: 49-66.
[4]Jean Charlet, Sylvie Szulman, Guy Pierra, Nadia Nadah, Henry Valéry Teguiak, Nathalie Aussenac-Gilles, Adeline Nazarenko. « DAFOE: A Multimodel and Multimethod Platform for Building Domain Ontologies », In Actes des 2èmes Journées Francophones sur les Ontologies, D. Benslimane, C. Roche et S. Spaccapietra (eds.), 1-2 décembre 2008, Lyon, France.

Fichier pdf de description du stage.