Représentation des Connaissances et Langage Naturel (RCLN)


Présentation

Les connaissances sont très généralement transmises par l'intermédiaire du langage, ce qui justifie que la Représentation des Connaissances, enjeu majeur de l'Intelligence Artificielle et des Sciences Cognitives, ait pour objectif de traiter les connaissances exprimées en Langage Naturel. De manière complémentaire, la compréhension de textes met en œuvre des connaissances et des raisonnements qu'il est fondamental de décrire et modéliser.

L'équipe RCLN s'intéresse donc au langage, non pour ses propriétés en tant que système formel de signes, mais pour son pouvoir expressif, et à la Représentation des Connaissances, notamment en tant qu'outil mis au service du traitement du Langage Naturel.

Les travaux de l'équipe comportent à la fois des recherches à caractère fondamental et des recherches plus appliquées. Ils s'organisent autour des trois thèmes ci-dessous.

Il s'agit dans le premier thème d'étudier finement, pour le modéliser, le calcul sémantique entrant dans certains phénomènes interprétatifs (liés au pluriel, au temps, aux normes). Le deuxième thème vise à concevoir des méthodes d’analyse sémantique de corpus, en cherchant à proposer différents niveaux d’analyse. Le troisième thème a pour objectif de développer des outils d'ingénierie des connaissances à partir de textes.

Les activités de ces trois thèmes de recherche sont en réalité fortement liées. L'objectif commun est de développer des méthodes permettant de modéliser, à des degrés divers, le contenu des textes et documents, soit pour y faciliter la navigation et la recherche d'information, soit pour en restituer l'information factuelle, soit encore pour construire un modèle du domaine. Les recherches plus fondamentales du thème « compréhension fine de textes » nourrissent la réflexion du thème « sémantique de corpus », même si la nécessaire robustesse des traitements sur corpus impose des simplifications. Le thème « ingénierie des connaissances à partir de textes » exploite les résultats des deux premiers thèmes pour élaborer des ontologies fondées sur les connaissances textuelles. Ces thèmes sont également liés à ceux de l'équipe A3 pour tout ce qui concerne l'apprentissage à partir de données textuelles.

Compréhension fine des textes

Ce thème s'attache à rendre compte d'une compréhension fine des textes qui s'oppose aux analyses nécessairement plus simples requises pour un traitement de corpus et qui se définit pour nous comme la capacité à tirer du texte des inférences adéquates.

Dans cet objectif, et à travers l'étude de certains phénomènes interprétatifs complexes, comme la référence aux événements, le pluriel ou les normes, nous examinons la dynamique du processus interprétatif et les principes sur lesquels il repose. Nous en dégageons plusieurs idées fortes :

Au cours de ces dernières années, ces recherches se sont focalisées sur les questions suivantes :

Sémantique de corpus

En parallèle et en complément avec les analyses fines développées dans le cadre du thème "compréhension fine de textes", nous explorons des méthodes d'analyses sémantiques adaptées au traitement de grandes quantités de texte.

Au-delà des techniques de recherche d'information qui associent un ensemble de documents à une requête, un enjeu majeur aujourd'hui concerne l'accès au contenu même des documents textuels. Il s'agit à la fois d'exploiter des documentations scientifiques et techniques et de maîtriser le contenu sémantique des pages web par l'ajout de métadonnées sémantiques interprétables par une machine dans une approche qui s’apparente à celle du web sémantique. Dans tous les cas, accéder au contenu des documents repose sur une analyse sémantique partielle et robuste du corpus.

Ces travaux s'inscrivent dans un courant de recherche important qui se focalise sur les moteurs de recherche sémantiques, les techniques d'extraction d'information et de question-réponse, l’annotation sémantique. Notre approche de ces problèmes est originale à plusieurs égards: nous mettons l'accent sur l'analyse de corpus spécialisés plutôt que sur des textes tout-venant ; nous articulons une analyse linguistique riche avec des techniques d'apprentissage et des méthodes d'acquisition de ressources ; nous cherchons à dépasser les frontières entre les techniques traditionnelles (recherche d'information, extraction d'information, question-réponse, navigation hypertextuelle) pour élaborer des approches plus riches de compréhension de textes.

Ces recherches visent à :

Ingénierie des connaissances textuelles

Le troisième volet des recherches de l'équipe RCLN concerne l'acquisition de connaissances à partir de textes. Le développement de l'analyse de corpus a montré en effet qu'on peut s'appuyer sur le matériau textuel pour amorcer et guider le processus complexe d'acquisition qui vise à élaborer les ressources nécessaires aux systèmes à base de connaissances.

Nos travaux sur ce thème s'inscrivent dans un courant de recherche actif en France depuis une quinzaine d'années, qui a été en partie animé par le groupe de travail « Terminologie et Intelligence Artificielle » auquel Brigitte Biébow, Adeline Nazarenko et Sylvie Szulman ont participé. Ces travaux rejoignent les recherches plus récentes qui sont menées au niveau européen dans la perspective de la construction d'un web sémantique. L'ancienneté de nos recherches et la coopération étroite entre le traitement automatique des langues et l'ingénierie des connaissances, donne une place originale à l'équipe RCLN dans ce paysage scientifique.

Nous mettons l'accent sur la constitution des bases de connaissances terminologiques et conceptuelles (ontologies, par exemple). Il s'agit principalement de :

Rapport d'activité quadriennal

Pour plus de renseignements, vous pouvez consulter le rapport d'activité quadriennal du laboratoire (2004-2007).


Accueil