Actualités du LIPN

[LIPN] [CNRS] [Université Paris 13]

To content | To menu | To search

Keyword - séminaire RCLN

Past posts

Monday 7 May 2012

Sémantique linguistique, TAL et ingénierie des connaissances : le cas de la temporalité

fr 

Oratrice : Delphine Battistelli, MdC HDR, Université Paris Sorbonne, UFR ISHA (Institut des Sciences Humaines Appliquées), équipe STIH (Sens, Texte, Informatique, Histoire), membre associé du laboratoire  MoDyCo (Modèles, Dynamiques, Corpus)

Résumé : 

Je présenterai lors de cet exposé la manière dont j’envisage une articulation plus explicite entre sémantique linguistique, TAL et IC pour ce qui concerne en particulier la temporalité. 

Il convient en effet selon moi d’opérer une distinction claire entre : 
(i) l’analyse de la temporalité linguistique en tant que telle (c’est-à-dire en tant que catégorie sémantique langagière telle qu’elle est circonscrite et analysée dans les travaux de linguistique) ; 
(ii) des visées de traitement (intuitives et applicatives) qui peuvent lui être associées (généralement, ce sont l’ordonnancement temporel et l’ancrage calendaire de situations factuelles) ;
(iii) en relation avec des besoins (en une analyse temporelle) de communautés d’utilisateurs données. 

Souligner cette distinction, c’est pour moi faire mieux ressortir la complémentarité de ces points de vue. Il ressort en effet de (i) que l’ensemble (ii) peut alors être étendu (au calcul du degré de factualité des évènements par exemple) et que (ii) et (iii) fournissent des outils d’évaluation empirique de la pertinence de (i). 

Ce point de vue méthodologique exploite le rapprochement manifeste ces dernières années entre les domaines du TAL et de la recherche d’information pour ce qui concerne la fouille et l’analyse sémantique de données textuelles. L’enjeu se situe bien sûr à l’aune d’une masse croissante de documents textuels de types très divers qui, si l’on y regarde de plus près, invitent à des angles d’analyse eux-mêmes très variés de la temporalité linguistique (on abordera par exemple plus facilement la question de la modalité dans des textes scientifiques que celle du temps, qui lui sera plutôt étudié dans des textes narratifs ou historiques, les marques énonciatives de points de vue étant elles l’objet de travaux sur des textes plutôt journalistiques et vecteurs d’opinions, etc.). Ce constat empirique reflète au demeurant une conception déjà inscrite dans l’analyse strictement linguistique de la temporalité qui met l’accent traditionnellement sur l’étroite interaction entre quatre dimensions sémantiques : l’aspect, le temps, la modalité et l’énonciation. 

Je présenterai ici deux cas d’usage (développés au sein de deux projets de recherche distincts) qui me semblent particulièrement illustratifs : l’un accès sur la visualisation de chronologies évènementielles à partir d’un corpus de dépêches AFP ; l’autre accès sur l’analyse de la modalité dans des textes du domaine de la biologie. Dans les deux cas, il s’agit de montrer que des informations repérées dans les textes sont susceptibles d’être constituées en connaissances en regard des quatre dimensions sus-mentionnées – combinées ou non entre elles – par des experts d’un domaine donné et donc de participer à une ingénierie des connaissances textuelles.

Friday 13 April 2012

Méthodes d'analyse multi-vues supervisées et non supervisées des données textuelles

fr 

Invité : Jean-Charles Lamirel, D. HDR, Equipe SYNALP, LORIA

Le paradigme MVDA (Multi-View Data Analysis) couvre à la fois le domaine de l’analyse de données et celui de la fouille de données. Il est plus spécifiquement dédié au traitement des données textuelles et multimédia, sans toutefois s’y limiter. Selon celui-ci, chaque analyse de données est considérée comme une vue différente sur les données. Le croisement entre les vues s’opère par l’intermédiaire d’un réseau bayésien construit, de manière non supervisée, à partir des données ou des propriétés partagées entre ces dernières. Le paradigme MDVA repose également sur l’exploitation de méthodes spécifiques de visualisation, comme la visualisation topographique ou la visualisation hyperbolique, qui permettant de gérer une interaction systémique entre les modèles obtenus et l’analyste. La mise en place de nouveaux estimateurs de qualité du clustering de type Rappel/Précision non supervisés basés sur l’analyse de la distribution des propriétés associées aux classes, et qui sont indépendants à la fois des méthodes de clustering et des changements relatifs à leur mode opératoire (initialisation, distances utilisées ...), nous a permis de démontrer objectivement les avantages de ce paradigme par rapport à l’approche globale, classique en analyse de données. Elle nous a également permis de comparer et d’intégrer dans le paradigme MVDA des méthodes de clustering neuronales, basées sur un nouveau principe de maximisation d’étiquetage, qui sont plus particulièrement adaptées à la gestion des données ultra-éparses et fortement multidimensionnelles, à l’image des données textuelles, ainsi que d’optimiser le mode opératoire de telles méthodes. Notre démarche a par ailleurs impliqué de développer la cohabitation entre le raisonnement neuronal et le raisonnement symbolique, ou entre des modèles de nature différente, de manière à couvrir l’ensemble des fonctions de recherche et d’analyse de l’information et à éliminer, sinon à réduire, les défauts inhérents à chacun des types d’approche.

A travers plusieurs applications, nous montrerons comment l’exploitation d’un tel paradigme peut permettre de résoudre des problèmes complexes d’analyse des données textuelles, comme ceux liés, en veille, à l’analyse sémantique de corpus de brevets, en scientométrie, à l’analyse diachronique à grande échelle des corpus bibliographiques, ou en TAL, à la classification et à l’étiquetage automatisés des catégories syntaxiques.

Nous aborderons dans un dernier temps le problème de la classification supervisée des données textuelles, et décrirons les travaux que nous avons menés en exploitant le principe de la détection de nouveauté, pour obtenir des méthodes de catégorisation à large champ, telle que la méthode ILoNDF, qui s’avèrent supérieures aux références usuelles du domaine, comme SVM, sur le texte. Nous montrerons finalement comment il est possible d’envisager l’intégration de ce type de méthode dans un contexte multi-vues.

Monday 2 April 2012

Améliorer l'interopérabilité sémantique : Applicabilité et utilité de l'alignement d'ontologie

fr 

Présenté par : Fayçal Hamdi, post-doctorant au laboratoire COGIT de l’IGN

Résumé :

Je présenterai tout d’abord les approches d’adaptation d’un processus d’alignement aux caractéristiques des ontologies alignées, qu’il s’agisse de caractéristiques quantitatives telles que leur volume ou de caractéristiques particulières liées par exemple à la façon dont les labels des concepts sont construits.

Concernant les caractéristiques quantitatives, je présenterai deux méthodes de partitionnement d’ontologies qui permettent l’alignement des ontologies très volumineuses. Ces deux méthodes génèrent, en entrée du processus d’alignement, des sous ensembles de taille raisonnable des deux ontologies à aligner en prenant en compte dès le départ l’objectif d’alignement dans le processus de partitionnement.

Concernant les caractéristiques particulières des ontologies alignées, je présenterai l’environnement TaxoMap Framework qui permet la spécification de traitements de raffinement à partir de primitives prédéfinies. Je présenterai le langage de patrons MPL (the Mapping Pattern Language) que j’ai proposé pour spécifier les traitements de raffinement.

En plus des approches d’adaptation aux caractéristiques des ontologies alignées, je présenterai les approches de réutilisation des résultats d’alignement pour l’ingénierie ontologique. Je me focaliserai plus particulièrement sur l’utilisation de l’alignement pour l’enrichissement d’ontologies. Je présenterai une étude de l’apport des techniques d’alignement pour l’enrichissement et l’impact des caractéristiques de la ressource externe utilisée comme source d’enrichissement.

Enfin, je présenterai la façon dont l’environnement TaxoMap Framework a été implémenté et les expérimentations réalisées : des tests sur le module d’alignement TaxoMap, sur l’approche de raffinement de mappings, sur les méthodes de partitionnement d’ontologies de très grande taille et sur l’approche d’enrichissement d’ontologies.

Monday 26 March 2012

Bringing together heterogeneous domain ontologies via the construction of a common fuzzy knowledge body

fr 

OrateurKonstantin Todorov, post-doctorant du Laboratoire de Mathématiques Appliquées aux Systèmes de l’Ecole Centrale Paris.

Résumé: In collaborative contexts, multiple independently created ontologies often need to be brought together in order to enable their interoperability. These ontologies have an impaired collaborative functionality, due to heterogeneities coming from the decentralized nature of their acquisition, differences in scopes and application purposes and mismatches in syntax and terminology. We present an approach to build a combined knowledge body for a set of domain ontologies, which captures and exposes various relations holding between the concepts of these ontologies, such as their relative generality or specificity, their shared commonality or complementarity. We situate our approach in a fuzzy framework, where every domain concept is represented as a fuzzy set of the concepts of a particular reference ontology. This can be seen as a projection of all domain source concepts onto a common semantic space, where distances and relations between any two concepts can be expressed under fixed criteria.

Tuesday 13 March 2012

Midi doctoral

fr 
  • Nada Mimouni,Classification conceptuelle d’une collection documentaire: Intertextualité et Recherche d’Information.

    Une collection documentaire est généralement représentée comme un ensemble de documents mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d’interprétation d’un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d’accès à l’information correspondent à des usages spécifiques et où les documents sont liés par de nombreux types de relations. Cet article propose un modèle permettant de rendre compte de cette complexité des collections documentaire dans les outils d’accès à l’information. En se basant sur l’analyse formelle et relationnelle de concepts appliquée sur des objets documentaires ce modèle permet de représenter et d’interroger de manière unifiée les descripteurs de contenu des documents et les relations intertextuelles qu’ils entretiennent.

  • Ines BannourUne plateforme open-source de recherche d’information sémantique

    Les méthodes de RIS visent à s’affranchir des problèmes classiques de synonymie et polysémie via le passage au niveau conceptuel. Elles reposent souvent sur l’utilisation d’une ressource sémantique. La qualité des résultats dépend des fonctionnalités sémantiques mises en place ainsi que de la qualité de la ressource utilisée. Malgré la profusion des propositions, l’apport d’une sémantique explicite reste à prouver. Nous proposons une décomposition des fonctionnalités qui sont communes aux différentes méthodes de RI.. Nous présentons ensuite Terrier SIR qui, via la dissociation des modules sémantiques, favorise aussi bien l’implémentation des méthodes de RIS que leurs éventuelles mises à jour ou adaptations. Nous avons effectué des expérimentations pour mettre en évidence l’intérêt d’une telle plate-forme.

  • Jonathan van Puymbrouck Construction de profils folksonomiques pour la Recherche d’Information

    Nous proposons une méthode qui exploite les folksonomies pour prendre en compte les profils de l’utilisateur lors de sa recherche d’information. Une folksonomie est constituée d’un ensemble de relations associant un utilisateur, une ressource et le mot-clé que le premier a utilisé pour tagger la seconde. L’idée consiste à construire un recouvrement de ces relations folksonomiques par un ensemble de micro-folksonomies qui relient des groupes d’utilisateurs, un vocabulaire de tags et un ensemble de ressources et qui généralisent ainsi les relations folksonomiques initiales. Nous introduisons l’algorithme de construction des micro-folksonomies, nous expliquons son fonctionnement sur un exemple jouet puis nous présentons des expériences qui montrent son apport en termes de recherche d’information.

Monday 30 May 2011

Pattern-based design of ontologies

fr 

Orateur : Aldo Gangemi (http://www.istc.cnr.it/createhtml.php?nbr=71), chercheur invité de l’équipe et directeur du STLab (Semantic Technology Laboratory) du CNR (Italian National Research Council )

Ontologies as used in conceptual modelling and the semantic web are designed based on different, sometimes mutually incompatible, practices: as top-down theories, as emerging from linguistic evidence, as motivated by a set of tasks, as a result of an evolutionary social process, etc.
I will make an assessment of the dimensions that can be used to analyze/evaluate an ontology, and will present a set of pattern-based methods for ontology design, a typology of patterns, some examples, and a summary (time-permitting) of the eXtreme Design approach.
A separate hands-on session using eXtreme Design with the NeOn Toolkit will be held on a next date. 

Tuesday 24 May 2011

The interface between lexicon and ontology: two semantics and the lexical linked data cloud

fr 

Orateur : Aldo Gangemi (http://stlab.istc.cnr.it/stlab/Aldo_Gangemi), chercheur invité de l’équipe RCLN et directeur du STLab (Semantic Technology Laboratory) du CNR (Italian National Research Council).

The interface between lexical and formal semantics is a traditional problem, revitalized in knowledge engineering. It’s gaining momentum nowadays mainly due to the push of the "Big Data" and "Linked Open Data" movements. The practical consequences of the assumptions and modelling choices related to the interface are widespread in commercial services integrating light NLP with databases, semantic knowledge management, as well as in robust, scalable ontology design. The dual role of lexica as knowledge sources and targets of knowledge engineering is clear in the Lexical Linked Data Cloud. I will make a landscape analysis of the current issues and use cases, and will show an example of the problems in lexical data linking.

Thursday 12 May 2011

La dimension probabiliste des marqueurs de discours

fr 

Orateur : Grégoire Winterstein

Les analyses argumentatives du discours (Anscombre et Ducrot, 1983) sont habituellement opposées à des approches "logiques" de la sémantique du discours. Dans mon travail, je montre que les deux approches peuvent et doivent être conciliées. Pour le montrer je me base sur l’interprétation probabiliste de la notion d’argumentation (Merin, 1999) et je m’intéresse au domaine des marqueurs de discours. Je montre tout d’abord que l’analyse de la sémantique du connecteur adversatif "mais" ne peut se passer d’une composante argumentative.
Dans un deuxième temps, j’étends le domaine des connecteurs argumentatifs en proposant d’intégrer une dimension argumentative dans la sémantique des marqueurs "aussi" et "et".

Monday 2 May 2011

Aide à la recherche d'entités dans un système d'information

fr 

Orateur : Nicolas Béchet (INRIA Rocquencourt)

Le nombre croissant de ressources disponibles sur le Web conduit inévitablement à la duplication de l’information. Néanmoins, les données dupliquées ne sont pas toujours de qualités comparables et peuvent être incomplètes. 

Les travaux présentés ont été réalisés dans un contexte de mise en place d’un système de recommandation d’hôtels en ligne. Dans ce contexte, il a été mis en évidence des problématiques liées à la manipulation de données textuelles mutlisources et de qualité de données hétérogène.

L’objectif de ces travaux vise à permettre l’exploitation d’informations décrivant la même entité à partir de données multisources et incomplètes. 

Deux méthodologies seront alors présentées afin d’aborder ces problématiques : la construction et le peuplement automatique d’un modèle conceptuel et l’application d’une méthode de fusion de données. 

Les expérimentations présentées s’appuieront sur des données provenant d’un site Web intégrateur de données relatives à des hôtels (Addictrip).

Friday 29 April 2011

Modèles génératif et discriminant en analyse syntaxique : expériences sur le corpus arboré de Paris 7

fr 

Orateur : Joseph Le Roux (TALEP, LIF, Université Aix-Marseille 2)

Nous présentons une architecture pour l’analyse syntaxique en deux étapes.

Dans un premier temps un analyseur syntagmatique construit, pour chaque phrase, une liste d’analyses qui sont converties en arbres de dépendances. Ces arbres sont ensuite réévalués par un réordonnanceur discriminant. Cette méthode permet de prendre en compte des informations auxquelles l’analyseur n’a pas accès, en particulier des annotations fonctionnelles. Nous validons notre approche par une évaluation sur le corpus arboré de Paris 7. 

La seconde étape permet d’améliorer significativement la qualité des analyses retournées, quelle que soit la métrique utilisée.

- page 1 of 3