Actualités du LIPN

[LIPN] [CNRS] [Université Paris 13]

To content | To menu | To search

Past posts

Monday 25 June 2012

Antipattern Detection in Web Ontologies: an Experiment using SPARQL queries

fr 

Oratrice : Catherine Roussey, Irstea/Cemagref, Clermont-Ferrand

Les antipatrons ontologiques sont des structures qui refletent des problemes de modélisations dans les ontologies. Ces mauvaises modélisations peuvent entrainer des incohérences logiques, déteriorer les performances des raisonneurs, voire conduire à des modélisations erronées des connaissances du domaine.

Nous présenterons un état des lieux des antipatrons que nous avons déja découverts suite à nos expériences en correction et construction d’ontologies.
Nous présenterons ensuite nos différentes expérimentations pour détecter certains des antipatrons à l’aide de requêtes SPARQL.
Ces expérimentations ont porté sur un ensemble d’ontologies provenant du portail Watson.

Thursday 21 June 2012

Discovering human semantics from Wikipedia

fr 

Orateurs: Andrea Nuzzolese (ISTC, CNR, Rome) et Valentina Presutti (Semantic Technology Laboratory,  National Research Council (CNR), Rome)

The talk describes an empirical investigation on Wikipedia links, from which we have discovered a set of knowledge patterns used by the crowds when dealing with an encyclopedical description task.

Friday 15 June 2012

Leveraging WordNet and FrameNet as Semantic Web resources

fr 

Orateur: Aldo Gangemi

WordNet and FrameNet are lexical resources that have been of great interest for NLP and also the Semantic Web. The talk presents their structure, describes the main advantages and problems that they can bring to semantics on the Web, and analyzes alternative formalizations of their data.

Tuesday 12 June 2012

From discourse representation to Web ontologies

fr 

Talk by : Aldo Gangemi

The talk introduces some problems of representing textual structures into formal expressions that can be used in semantic technologies, specially on the Web. This will be made concrete with reference to existing shallow and deep parsing tools, and FRED, a tool that transforms DRT output into RDF and OWL.

Monday 7 May 2012

Sémantique linguistique, TAL et ingénierie des connaissances : le cas de la temporalité

fr 

Oratrice : Delphine Battistelli, MdC HDR, Université Paris Sorbonne, UFR ISHA (Institut des Sciences Humaines Appliquées), équipe STIH (Sens, Texte, Informatique, Histoire), membre associé du laboratoire  MoDyCo (Modèles, Dynamiques, Corpus)

Résumé : 

Je présenterai lors de cet exposé la manière dont j’envisage une articulation plus explicite entre sémantique linguistique, TAL et IC pour ce qui concerne en particulier la temporalité. 

Il convient en effet selon moi d’opérer une distinction claire entre : 
(i) l’analyse de la temporalité linguistique en tant que telle (c’est-à-dire en tant que catégorie sémantique langagière telle qu’elle est circonscrite et analysée dans les travaux de linguistique) ; 
(ii) des visées de traitement (intuitives et applicatives) qui peuvent lui être associées (généralement, ce sont l’ordonnancement temporel et l’ancrage calendaire de situations factuelles) ;
(iii) en relation avec des besoins (en une analyse temporelle) de communautés d’utilisateurs données. 

Souligner cette distinction, c’est pour moi faire mieux ressortir la complémentarité de ces points de vue. Il ressort en effet de (i) que l’ensemble (ii) peut alors être étendu (au calcul du degré de factualité des évènements par exemple) et que (ii) et (iii) fournissent des outils d’évaluation empirique de la pertinence de (i). 

Ce point de vue méthodologique exploite le rapprochement manifeste ces dernières années entre les domaines du TAL et de la recherche d’information pour ce qui concerne la fouille et l’analyse sémantique de données textuelles. L’enjeu se situe bien sûr à l’aune d’une masse croissante de documents textuels de types très divers qui, si l’on y regarde de plus près, invitent à des angles d’analyse eux-mêmes très variés de la temporalité linguistique (on abordera par exemple plus facilement la question de la modalité dans des textes scientifiques que celle du temps, qui lui sera plutôt étudié dans des textes narratifs ou historiques, les marques énonciatives de points de vue étant elles l’objet de travaux sur des textes plutôt journalistiques et vecteurs d’opinions, etc.). Ce constat empirique reflète au demeurant une conception déjà inscrite dans l’analyse strictement linguistique de la temporalité qui met l’accent traditionnellement sur l’étroite interaction entre quatre dimensions sémantiques : l’aspect, le temps, la modalité et l’énonciation. 

Je présenterai ici deux cas d’usage (développés au sein de deux projets de recherche distincts) qui me semblent particulièrement illustratifs : l’un accès sur la visualisation de chronologies évènementielles à partir d’un corpus de dépêches AFP ; l’autre accès sur l’analyse de la modalité dans des textes du domaine de la biologie. Dans les deux cas, il s’agit de montrer que des informations repérées dans les textes sont susceptibles d’être constituées en connaissances en regard des quatre dimensions sus-mentionnées – combinées ou non entre elles – par des experts d’un domaine donné et donc de participer à une ingénierie des connaissances textuelles.

Friday 13 April 2012

Méthodes d'analyse multi-vues supervisées et non supervisées des données textuelles

fr 

Invité : Jean-Charles Lamirel, D. HDR, Equipe SYNALP, LORIA

Le paradigme MVDA (Multi-View Data Analysis) couvre à la fois le domaine de l’analyse de données et celui de la fouille de données. Il est plus spécifiquement dédié au traitement des données textuelles et multimédia, sans toutefois s’y limiter. Selon celui-ci, chaque analyse de données est considérée comme une vue différente sur les données. Le croisement entre les vues s’opère par l’intermédiaire d’un réseau bayésien construit, de manière non supervisée, à partir des données ou des propriétés partagées entre ces dernières. Le paradigme MDVA repose également sur l’exploitation de méthodes spécifiques de visualisation, comme la visualisation topographique ou la visualisation hyperbolique, qui permettant de gérer une interaction systémique entre les modèles obtenus et l’analyste. La mise en place de nouveaux estimateurs de qualité du clustering de type Rappel/Précision non supervisés basés sur l’analyse de la distribution des propriétés associées aux classes, et qui sont indépendants à la fois des méthodes de clustering et des changements relatifs à leur mode opératoire (initialisation, distances utilisées ...), nous a permis de démontrer objectivement les avantages de ce paradigme par rapport à l’approche globale, classique en analyse de données. Elle nous a également permis de comparer et d’intégrer dans le paradigme MVDA des méthodes de clustering neuronales, basées sur un nouveau principe de maximisation d’étiquetage, qui sont plus particulièrement adaptées à la gestion des données ultra-éparses et fortement multidimensionnelles, à l’image des données textuelles, ainsi que d’optimiser le mode opératoire de telles méthodes. Notre démarche a par ailleurs impliqué de développer la cohabitation entre le raisonnement neuronal et le raisonnement symbolique, ou entre des modèles de nature différente, de manière à couvrir l’ensemble des fonctions de recherche et d’analyse de l’information et à éliminer, sinon à réduire, les défauts inhérents à chacun des types d’approche.

A travers plusieurs applications, nous montrerons comment l’exploitation d’un tel paradigme peut permettre de résoudre des problèmes complexes d’analyse des données textuelles, comme ceux liés, en veille, à l’analyse sémantique de corpus de brevets, en scientométrie, à l’analyse diachronique à grande échelle des corpus bibliographiques, ou en TAL, à la classification et à l’étiquetage automatisés des catégories syntaxiques.

Nous aborderons dans un dernier temps le problème de la classification supervisée des données textuelles, et décrirons les travaux que nous avons menés en exploitant le principe de la détection de nouveauté, pour obtenir des méthodes de catégorisation à large champ, telle que la méthode ILoNDF, qui s’avèrent supérieures aux références usuelles du domaine, comme SVM, sur le texte. Nous montrerons finalement comment il est possible d’envisager l’intégration de ce type de méthode dans un contexte multi-vues.

Monday 2 April 2012

Améliorer l'interopérabilité sémantique : Applicabilité et utilité de l'alignement d'ontologie

fr 

Présenté par : Fayçal Hamdi, post-doctorant au laboratoire COGIT de l’IGN

Résumé :

Je présenterai tout d’abord les approches d’adaptation d’un processus d’alignement aux caractéristiques des ontologies alignées, qu’il s’agisse de caractéristiques quantitatives telles que leur volume ou de caractéristiques particulières liées par exemple à la façon dont les labels des concepts sont construits.

Concernant les caractéristiques quantitatives, je présenterai deux méthodes de partitionnement d’ontologies qui permettent l’alignement des ontologies très volumineuses. Ces deux méthodes génèrent, en entrée du processus d’alignement, des sous ensembles de taille raisonnable des deux ontologies à aligner en prenant en compte dès le départ l’objectif d’alignement dans le processus de partitionnement.

Concernant les caractéristiques particulières des ontologies alignées, je présenterai l’environnement TaxoMap Framework qui permet la spécification de traitements de raffinement à partir de primitives prédéfinies. Je présenterai le langage de patrons MPL (the Mapping Pattern Language) que j’ai proposé pour spécifier les traitements de raffinement.

En plus des approches d’adaptation aux caractéristiques des ontologies alignées, je présenterai les approches de réutilisation des résultats d’alignement pour l’ingénierie ontologique. Je me focaliserai plus particulièrement sur l’utilisation de l’alignement pour l’enrichissement d’ontologies. Je présenterai une étude de l’apport des techniques d’alignement pour l’enrichissement et l’impact des caractéristiques de la ressource externe utilisée comme source d’enrichissement.

Enfin, je présenterai la façon dont l’environnement TaxoMap Framework a été implémenté et les expérimentations réalisées : des tests sur le module d’alignement TaxoMap, sur l’approche de raffinement de mappings, sur les méthodes de partitionnement d’ontologies de très grande taille et sur l’approche d’enrichissement d’ontologies.

Monday 30 May 2011

Pattern-based design of ontologies

fr 

Orateur : Aldo Gangemi (http://www.istc.cnr.it/createhtml.php?nbr=71), chercheur invité de l’équipe et directeur du STLab (Semantic Technology Laboratory) du CNR (Italian National Research Council )

Ontologies as used in conceptual modelling and the semantic web are designed based on different, sometimes mutually incompatible, practices: as top-down theories, as emerging from linguistic evidence, as motivated by a set of tasks, as a result of an evolutionary social process, etc.
I will make an assessment of the dimensions that can be used to analyze/evaluate an ontology, and will present a set of pattern-based methods for ontology design, a typology of patterns, some examples, and a summary (time-permitting) of the eXtreme Design approach.
A separate hands-on session using eXtreme Design with the NeOn Toolkit will be held on a next date. 

Tuesday 24 May 2011

The interface between lexicon and ontology: two semantics and the lexical linked data cloud

fr 

Orateur : Aldo Gangemi (http://stlab.istc.cnr.it/stlab/Aldo_Gangemi), chercheur invité de l’équipe RCLN et directeur du STLab (Semantic Technology Laboratory) du CNR (Italian National Research Council).

The interface between lexical and formal semantics is a traditional problem, revitalized in knowledge engineering. It’s gaining momentum nowadays mainly due to the push of the "Big Data" and "Linked Open Data" movements. The practical consequences of the assumptions and modelling choices related to the interface are widespread in commercial services integrating light NLP with databases, semantic knowledge management, as well as in robust, scalable ontology design. The dual role of lexica as knowledge sources and targets of knowledge engineering is clear in the Lexical Linked Data Cloud. I will make a landscape analysis of the current issues and use cases, and will show an example of the problems in lexical data linking.

Thursday 12 May 2011

La dimension probabiliste des marqueurs de discours

fr 

Orateur : Grégoire Winterstein

Les analyses argumentatives du discours (Anscombre et Ducrot, 1983) sont habituellement opposées à des approches "logiques" de la sémantique du discours. Dans mon travail, je montre que les deux approches peuvent et doivent être conciliées. Pour le montrer je me base sur l’interprétation probabiliste de la notion d’argumentation (Merin, 1999) et je m’intéresse au domaine des marqueurs de discours. Je montre tout d’abord que l’analyse de la sémantique du connecteur adversatif "mais" ne peut se passer d’une composante argumentative.
Dans un deuxième temps, j’étends le domaine des connecteurs argumentatifs en proposant d’intégrer une dimension argumentative dans la sémantique des marqueurs "aussi" et "et".

- page 1 of 3