Offre de Stage 2010 (Les candidatures sont closes!)
Sujet : Indexation et recherche d'information sémantiques
Contexte
L'utilisation d'ontologies dans le cadre d'une recherche d'information a pour
but de dépasser les limites d'une recherche classique par mots clés. Le Web
sémantique propose une infrastructure qui permet de mettre en place une
recherche sémantique.
La vision implicite du Web Sémantique repose sur les hypothèses suivantes :
- Il existe des ontologies formelles pour décrire objectivement les
connaissances d'un domaine.
- Il est possible de décrire le contenu de documents en utilisant les concepts
de ces ontologies.
- Il est possible pour l'utilisateur de rechercher l'information en
utilisant ces mêmes concepts.
Actuellement, même s'il existe de plus en plus d'ontologies, il est difficile
de trouver une ontologie qui couvre la totalité des connaissances d'une base
documentaire et qui permettrait de ce fait d'accéder à toute l'information
contenue dans cette base. L'idée est donc de proposer des méthodes
d'indexation et de recherche d'information qui exploitent la sémantique
représentée dans une ontologie (par opposition à la sémantique latente, LSI[1]) mais également
le texte lui-même pour ne pas être restreint par la couverture de l'ontologie
[4].
Objectifs
- Établir un état de l'art sur les méthodes de recherche d'information
sémantique.
- Proposer des méthodes d'indexation qui permettent de combiner des
modèles classiques de Recherche d'Information (e.g. modèle vectoriel [2])
avec l'exploitation d'une ontologie par le biais de mesures de proximité
sémantique (e.g mesure de Wu&Palmer [3]).
- Implémenter des propositions sur la base du moteur de recherche
Lucene[5].
- Participer à la création d'un benchmark pour une évaluation comparative
par rapport à une recherche d'information classique.
Profil recherché
- Intérêt pour l'IC et la Recherche d'Information
- Autonome en informatique : connaissance d'UNIX, de Java (ou autre langage
OO)
Conditions
Bac + 5 (Master pro ou recherche ou dernière année ingénieur)
orienté informatique
Stage de 4 à 6 mois, rémunéré.
Lieu du stage : LIPN (http://www-lipn.univ-paris13.fr/), Université Paris 13.
Responsables
Sylvie Salotti & Haïfa Zargayouna
Pour envoyer votre candidature, envoyer un CV et une lettre ou un mail
de motivation à : sylvie.salotti at lipn.univ-paris13.fr, haifa.zargayouna at
lipn.univ-paris13.fr
Liens et références
[1] S. Deerwester, Susan Dumais, G. W. Furnas, T. K. Landauer, R. Harshman
(1990).
Indexing by Latent Semantic Analysis. Journal of the American Society for
Information
[2] G. Salton , A. Wong , CS Yang (1975) A vector space model for automatic
indexing , Communications of the
ACM, v.18 n.11, p.613-620, Nov. 1975
[3] Z. Wu & M. Palmer (1994) Verb Semantics and Lexical Selection, Proceedings
of the 32nd Annual Meetings
of the Associations for Computational Linguistics, pages 133-138.
[4] H. Zargayouna (2005) "Indexation sémantique de documents XML" Thèse,
Université Paris-Sud.
Science 41 (6): 391'407.
[5] http://lucene.apache.org/