Invité : Jean-Charles Lamirel, D. HDR, Equipe SYNALP, LORIA
Le paradigme MVDA (Multi-View Data Analysis) couvre à la fois le domaine de l’analyse de données et celui de la fouille de données. Il est plus spécifiquement dédié au traitement des données textuelles et multimédia, sans toutefois s’y limiter. Selon celui-ci, chaque analyse de données est considérée comme une vue différente sur les données. Le croisement entre les vues s’opère par l’intermédiaire d’un réseau bayésien construit, de manière non supervisée, à partir des données ou des propriétés partagées entre ces dernières. Le paradigme MDVA repose également sur l’exploitation de méthodes spécifiques de visualisation, comme la visualisation topographique ou la visualisation hyperbolique, qui permettant de gérer une interaction systémique entre les modèles obtenus et l’analyste. La mise en place de nouveaux estimateurs de qualité du clustering de type Rappel/Précision non supervisés basés sur l’analyse de la distribution des propriétés associées aux classes, et qui sont indépendants à la fois des méthodes de clustering et des changements relatifs à leur mode opératoire (initialisation, distances utilisées ...), nous a permis de démontrer objectivement les avantages de ce paradigme par rapport à l’approche globale, classique en analyse de données. Elle nous a également permis de comparer et d’intégrer dans le paradigme MVDA des méthodes de clustering neuronales, basées sur un nouveau principe de maximisation d’étiquetage, qui sont plus particulièrement adaptées à la gestion des données ultra-éparses et fortement multidimensionnelles, à l’image des données textuelles, ainsi que d’optimiser le mode opératoire de telles méthodes. Notre démarche a par ailleurs impliqué de développer la cohabitation entre le raisonnement neuronal et le raisonnement symbolique, ou entre des modèles de nature différente, de manière à couvrir l’ensemble des fonctions de recherche et d’analyse de l’information et à éliminer, sinon à réduire, les défauts inhérents à chacun des types d’approche.
A travers plusieurs applications, nous montrerons comment l’exploitation d’un tel paradigme peut permettre de résoudre des problèmes complexes d’analyse des données textuelles, comme ceux liés, en veille, à l’analyse sémantique de corpus de brevets, en scientométrie, à l’analyse diachronique à grande échelle des corpus bibliographiques, ou en TAL, à la classification et à l’étiquetage automatisés des catégories syntaxiques.
Nous aborderons dans un dernier temps le problème de la classification supervisée des données textuelles, et décrirons les travaux que nous avons menés en exploitant le principe de la détection de nouveauté, pour obtenir des méthodes de catégorisation à large champ, telle que la méthode ILoNDF, qui s’avèrent supérieures aux références usuelles du domaine, comme SVM, sur le texte. Nous montrerons finalement comment il est possible d’envisager l’intégration de ce type de méthode dans un contexte multi-vues.
![[LIPN]](/blog-themes/lipn-automne/img/logo_lipn.png)
![[CNRS]](/blog-themes/lipn-automne/img/logo_cnrs.png)
![[Université Paris 13]](/blog-themes/lipn-automne/img/logo_paris13.png)
About the ICS format