Contexte
L'utilisation d'ontologies dans le cadre d'une recherche d'information a pour but de dépasser les limites d'une recherche classique par mots clés. Le Web sémantique propose une infrastructure qui permet de mettre en place une recherche sémantique.
La vision implicite du Web Sémantique repose sur les hypothèses suivantes :
Actuellement, même s'il existe de plus en plus d'ontologies, il est difficile de trouver une ontologie qui couvre la totalité des connaissances d'une base documentaire et qui permettrait de ce fait d'accéder à toute l'information contenue dans cette base. L'idée est donc de proposer des méthodes d'indexation et de recherche d'information qui exploitent la sémantique représentée dans une ontologie (par opposition à la sémantique latente, LSI[1]) mais également le texte lui-même pour ne pas être restreint par la couverture de l'ontologie [4].
Objectifs
Profil recherché
Conditions
Bac + 5 (Master pro ou recherche ou dernière année ingénieur) orienté informatique.
Stage de 4 à 6 mois, rémunéré.
Responsable
Sylvie Salotti (email : sylvie.salotti at lipn.univ-paris13.fr)
Haïfa Zargayouna (email : haifa.zargayouna at lipn.univ-paris13.fr)
Liens et références
[1] S. Deerwester, Susan Dumais, G. W. Furnas, T. K. Landauer, R. Harshman (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science 41 (6): 391?407.
[2] G. Salton , A. Wong , CS Yang (1975) A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975
[3] Z. Wu & M. Palmer (1994) Verb Semantics and Lexical Selection, Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, pages 133-138.
[4] H. Zargayouna (2005) "Indexation sémantique de documents XML" Thèse, Université Paris-Sud.
[5] http://lucene.apache.org/
Context
In recent decades, the study of « meaning » (or « semantics ») has gotten a high-speed progress because of the dramatic expansion of documents within enterprises and on the web. To this end, Semantic Web [1] has been proposed as the next generation of web, where semantics plays a key role. It has been gaining momentum driven by World Wide Web Consortium (W3C, http://www.w3.org) since 2001. A typical research under Semantic Web is to study ontology languages [2], such as OWL which is standardized by W3C and has Description Logics [3] as its formal semantic underpinning. It is remarkable to see that many scalable reasoners are implemented for different profiles of OWL.
Advanced or domain-oriented text processing systems can benefit significantly from the access to ontologies [4]. Among many, three important advantages are as follows:
Description of work
Supported by the Quaero program, the goal of this internship is to study how advanced ontology reasoning techniques can contribute to text processing systems. One of the main topics is to study and evaluate the ontology reasoning based metrics to improve semantic annotations on texts, where semantic annotation is to tag fragments of texts by suitable ontological elements, which makes texts machine processible via the semantics of the ontology.
This work concerns two layers of techniques: ontology reasoning (logics) and text processing (information extraction). Relevant existing approaches are mostly based on the assumption that the information extraction is a black-box and not interactive even if errors may be detected in ontological annotations. We are interested in getting over this disadvantage in our semantic annotation platform. It will contain several steps:
The benefits of this work are to associate a certainty degree of reliability to each annotation and to exclude bad annotation rules for further annotation procedures. The continuing progress of this work is promising and can include the following aspects, such as inconsistency handling techniques for handling content conflictions in texts; text-based ontology matching technique; and developing extra reasoning services for text processing.
Desired background
Bac + 5 in Computer Science, able to work in English.
Skills in Computer Science and in NLP will be appreciated when studying applications.
Conditions
Six months internship, supported by a project.
In case of success, the internship might be continued by a PhD supported by a project.
Responsable
Yue Ma (email : yue.ma at lipn.univ-paris13.fr)
Bibliography
Contexte
Si on a historiquement demandé aux informaticiens de construire des systèmes experts et à base de connaissances pour automatiser des processus de décision des organisations, on cherche aujourd'hui à donner une capacité de contrôle de ces systèmes aux personnes du domaine : elles doivent pouvoir sinon écrire les règles du système, du moins les vérifier et les mettre à jour quand nécessaire.
Dans ce contexte, il est important d'intégrer la documentation aux systèmes d'information des entreprises : c'est souvent à partir des documents techniques que les connaissances servant à la prise de décision sont élaborées et donc se justifient.
Le stagiaire doit rejoindre le projet européen ONTORULE portant sur les systèmes de gestion des règles métiers (règles de calcul des impôts, d'attribution de bonus, de location de véhicules, etc.). L'un des objectifs de ce projet est d'intégrer les textes réglementaires aux systèmes de gestion des règles de manière à expliquer les décisions prises et à maintenir la base de règles en phase avec la documentation lorsque cette dernière évolue (ou réciproquement).
Objectifs
Le but de ce stage est de constituer et d'analyser un corpus de textes réglementaires pour spécifier un système d'extraction des règles métiers. Il ne s'agit pas d'extraire automatiquement des règles métiers des corpus réglementaires mais de repérer les différents types de marqueurs de règles pour permettre d'isoler les passages de textes les plus réglementaires. Les marqueurs de règles et le volume de données à analyser pouvant varier beaucoup d'un corpus à l'autre, cette analyse doit s'appuyer sur une typologie des corpus réglementaires, l'idéal étant de pouvoir identifier des critères formels permettant de déterminer quelle la stratégie d'extraction est à adopter pour quels textes.
Plan de travail :
Profil recherché
Bac + 5 en linguistique informatique ou en TAL.
Des compétences en analyse de corpus et en TAL seront appréciées lors de l'examen des candidatures.
Conditions
Stage de 6 mois, financé sur projet. Le candidat rejoindra un laboratoire d'informatique, le LIPN, et sera intégré dans l'équipe RCLN. Il pourra travailler en collaboration directe avec les différentes personnes impliquées dans le projet ONTORULE (enseignants-chercheurs, doctorants, post-doctorant et ingénieur de recherche).
En cas de succès, ce stage pourra se poursuivre par une thèse ou un contrat d'ingénieur de recherche.
Responsable
François Lévy (email : francois.levy at lipn.univ-paris13.fr)
Adeline Nazarenko (email : adeline.nazarenko at lipn.univ-paris13.fr)
Référence
Abdoulaye Guissé, François Lévy, Adeline Nazarenko, Sylvie Szulman. « Annotation sémantique pour l'indexation de règles métiers », in Actes de la Conférence Internationale sur la Terminologie et l'Intelligence Artificielle (TIA 2009), Marie-Claude L'Homme, Sylvie Szulman (Eds.), Toulouse (France), (version électronique, 11 pages), nov. 2009.
Contexte
Au cours des dernières années, de nouveaux systèmes d'analyse de textes reposant sur une approche d'annotation sémantique ont vu le jour. Ces systèmes décrivent le contenu d'un texte en liant ce dernier à une ontologie. Ils proposent donc une interprétation du texte au regard de l'ontologie considérée. Cette approche prend tout son sens dans le cadre du Web Sémantique. En tant que système sémantique formel, l'ontologie définit une manière standardisée de coder les connaissances (sous la forme de concepts, d'instances et de rôles conceptuels) qui donne une vue nécessairement partielle du contenu du texte mais qui supporte des raisonnements qui ne peuvent être faits sur le texte de départ.
Ce stage s'inscrit dans le cadre du programme Quaero dont l'un des objectifs consiste à annoter sémantiquement des documents, les annotations produites étant utilisées par différents systèmes documentaires (recherche d'information sémantique, catégorisation de documents, etc.).
Mission
Le but de ce stage est de développer un module d'annotation sémantique qui prend en entrée un document – éventuellement déjà partiellement analysé –, une ontologie ainsi que des règles d'annotation attachées à l'ontologie et qui produit en sortie un texte annoté au regard de l'ontologie de départ. Toute la difficulté consiste à prendre en compte une grande diversité de règles d'annotation : certaines peuvent être très simples – comme l'association d'un terme non ambigu à un concept – mais d'autres, plus complexes, s'expriment sous la forme d'expressions régulières ou nécessitent des calculs probabilistes. Il faut également s'appuyer sur un premier étiquetage du texte lorsque celui-ci est fourni par des outils d'analyse linguistique (étiquetage morpho-syntaxique, terminologique, etc.).
Ce module d'annotation devra pouvoir être interfacé avec différents outils développés au sein du LIPN, ce qui nécessitera un travail de conception initial très rigoureux. La complexité des problèmes d'annotation et le volume de données à traiter supposera également une analyse approfondie des différentes solutions techniques permettant d'appliquer un ensemble de règles d'annotation sur un corpus textuel et du travail de développement.
Une fois développé le système d'annotation initial, deux pistes de travail pourront être explorées selon le profil et les goûts du candidat :
Profil recherché
Bac + 5 en informatique
Les compétences en informatique et en TAL seront appréciées lors de l'examen des candidatures.
Conditions
Stage de 6 mois, financé sur projet.
En cas de succès, ce stage pourra se poursuivre par une thèse financée sur projet.
Responsable
Laurent Audibert (email : laurent.audibert at lipn.univ-paris13.fr)
Adeline Nazarenko (email : adeline.nazarenko at lipn.univ-paris13.fr)
Références
Contexte
L'extraction de relations sémantiques est depuis longtemps reconnue comme une tâche clef du processus d'acquisition de connaissances à partir de textes. Elle a été considérée sous différents angles (pour la construction d'ontologies et la création de rôles entre concepts, pour l'extraction d'information et le remplissage de formulaires, pour l'analyse rhétorique, etc.) et a fait l'objet de nombreux travaux. Deux grandes familles de méthodes sont utilisées pour l'extraction de relations sémantiques des textes :
Objectifs
L'objectif de ce stage est de développer un module d'extraction de relations sémantiques qui combine ces deux approches comme cela a été proposé dans [2] et à l'évaluer dans le cadre d'un processus de construction d'ontologies à partir de textes.
Ce travail pose une double difficulté :
Plan de travail :
Profil recherché
Bac + 5 en informatique.
Des compétences en informatique et en TAL seront appréciées lors de l'examen des candidatures.
Conditions
Stage de 6 mois, financé sur projet.
En cas de succès, ce stage pourra se poursuivre par une thèse financée sur projet.
Responsable
Sylvie Szulman (email : sylvie.szulman at lipn.univ-paris13.fr)
Adeline Nazarenko (email : adeline.nazarenko at lipn.univ-paris13.fr)
Références
[1]Nathalie Aussenac-Gilles, Nathalie Hernandez. Du linguistique au conceptuel : étapes de l'identification de relations conceptuelles à partir de textes. Atelier "Acquisition et modélisation de relations sémantiques" associé à la conférence TIA 2009, Toulouse, nov. 2009, Sylvie Despres, Natalia Grabar (Eds.).
[2]Rim Bentebibel, Adeline Nazarenko, Sylvie Szulman. « Un système d'aide à l'extraction de relations sémantiques pour la construction d'ontologies à partir de textes », in Actes des 10ème journées Francophones Extraction et Gestion des Connaissances (EGC 2010), pp. 483-494, Hammamet, Tunisie, janv. 2010.
[3]Brigitte Biébow, Sylvie Szulman. « TERMINAE: A Linguistic-Based Tool for the Building of a Domain Ontology ». Proceedinfs of EKAW 1999: 49-66.
[4]Jean Charlet, Sylvie Szulman, Guy Pierra, Nadia Nadah, Henry Valéry Teguiak, Nathalie Aussenac-Gilles, Adeline Nazarenko. « DAFOE: A Multimodel and Multimethod Platform for Building Domain Ontologies », In Actes des 2èmes Journées Francophones sur les Ontologies, D. Benslimane, C. Roche et S. Spaccapietra (eds.), 1-2 décembre 2008, Lyon, France.