Bonjour, j’ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu
au LIPN - Université de Paris13, le mercredi 12 décembre à 14h30 en
salle B311 de l’Institut Galilée. La soutenance sera suivie d’un pot en
salle A201.
Le sujet de la thèse est :
"Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles"
Directeur de thèse : Younès Bennani.
Le jury sera composé des membres suivants :
-- Massih-Reza Amini (Maître de Conférences, LIP6 -- Université de Paris 6)
-- Younès Bennani (Professeur, LIPN -- Université de Paris 13)
-- Christophe Fouqueré (Professeur, LIPN -- Université de Paris 13)
-- Cyril Goutte (Agent de Recherche, CNRC -- Canada)
-- Jean-François Marcotorchino (Directeur Scientifique, Thalès Land & Joint)
-- Alain Rakotomamonjy (Professeur, INSA -- Université de Rouen)
-- Michèle Sebag (Directrice de Recherche, CNRS -- LRI -Paris 11)
-- Emmanuel Viennet (Maître de Conférences, LIPN, Université de Paris 13)
Résumé de la thèse :
Depuis le début des années 80, les méthodes statistiques et, plus
spécifiquement, les méthodes d’apprentissage appliquées au traitement de
données textuelles connaissent un intérêt grandissant. Cette tendance
est principalement due au fait que la taille des corpus est en
perpétuelle croissance. Ainsi, les méthodes utilisant le travail
d’experts pour établir des règles de traitements sont devenues des
processus coûteux perdant peu à peu de leur popularité au profit des
systèmes d’apprentissage.
Les méthodes d’apprentissage supervisé permettent d’extraire
automatiquement, à partir d’un échantillon d’apprentissage ("annoté"),
des relations entre les données et le problème posé. Ces relations
peuvent ensuite être généralisées à l’ensemble d’un corpus. Parmi les
algorithmes d’apprentissage, les méthodes à noyaux connaissent un énorme
succès depuis ces dernières années. Les noyaux sont des produits
scalaires pouvant être perçus comme des fonctions de similarité. Ils
peuvent être utilisés avec des algorithmes d’apprentissage linéaires
tels que les Séparateurs à Vaste Marge (SVM) pour extraire des relations
non-linéaires. En outre, ils permettent d’étendre les algorithmes
d’apprentissage numérique aux données de tous types et notamment des
types complexes tels que les arbres et les graphes.
Dans le cadre de cette thèse, nous nous intéressons principalement à
deux axes :
- Le premier axe porte sur l’étude des problématiques liées au
traitement de données textuelles structurées par des approches à base de
noyaux. Nous présenterons, dans ce contexte, un noyau sémantique pour
les documents structurés en sections notamment sous le format XML. Le
noyau tire ses informations sémantiques à partir d’une source de
connaissances externe, à savoir un thésaurus. Notre noyau a été testé
sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a
été classé, lors d’un challenge international de catégorisation de
documents médicaux, parmi les 10 méthodes les plus performantes sur 44.
- Le second axe porte sur l’étude des concepts latents extraits par
des méthodes statistiques telles que l’analyse sémantique latente (LSA).
Nous présentons, dans une première partie, des noyaux exploitant des
concepts linguistiques provenant d’une source externe et des concepts
statistiques issus de la LSA. Nous montrons qu’un noyau intégrant les
deux types de concepts permet d’améliorer les performances. Puis, dans
un deuxième temps, nous présentons un noyau utilisant des LSA locaux
afin d’extraire des concepts latents permettant d’obtenir une
représentation plus fine des documents.
Une grande partie des travaux effectués dans cette thèse ont été
menés dans le cadre du projet Infomagic du pôle de compétitivité Cap
Digital.
Mots clés : Apprentissage, Noyaux, Séparateurs à Vaste Marge,
Catégorisation de texte, Mesure de Similarité Sémantique.
Cordialement,
Sujeevan Aseervatham.