Catherine Recanati

Recherches

Autres domaines d'intérêt

Publications

Activités récentes


Projets

- Labex EFL, Empirical Foundations of Linguistics (ANR 2011-2021)
- Groupe de recherche Kairos depuis 2010, Projet exploratoire pluridisciplinaire Mathématiques-Informatique-Linguistique sur les expressions linguistiques associées aux séries calendaires déictiques et anaphoriques dans une perspective typologique.
- Projet PEPS "Relations", 2008
- Projet LIPN/Numsight "WebMining", 2001-2002.

Activités de recherches interrompues de 1996 à 2001 pour raisons de santé
- Projet CogniSeine CREA/LIPN/DASSAULT Aviation, "Modélisation cognitive de la représentation du temps et de l'espace dans la compréhension et la production du langage", 1993-96.
- Projet CNET/LIPN, "Utilisation de stratégies de reformulation pour accroître la convivialité des systèmes interactifs en langage naturel", 1993.
- Projet européen Esprit STAPLE (Directeur du Projet). Responsable pour NSL du développement d'un éditeur syntaxique textuel et graphique pour un langage fonctionnel typé dans un système muni d'une base de données persistentes et d'un format de données partagé par tous les outils du système (éditeur, compilateur, etc.), afin d'optimiser la mise en mémoire et les traductions internes de fichiers d'un format dans un autre, 1987-90.
- Projet européen Esprit CHAMELEON. Contribution à la modélisation d'un système permettant de faire migrer des processus Scheme sur un réseau de machines Unix, 1986-87.
- Participation à la définition ergonomique de Wish, un Shell iconique Unix développé à NSL (pour Atari), 1988-90.

Retour en haut de page


Encadrements d'étudiants

- Stage de Master 2 MICR de Adel ben Mertah (LIPN, 2009) "Langage pseudo naturel comportant des expressions spatiales (et/ou temporelles) pour un dialogue homme-machine multimodal" (description.pdf).
- Stage de
Master 2 MICR de Nicoleta Rogovschi (LIPN, 2006), co-dirigé par Y. Bennani. Titre : "Apprentissage numérique non-supervisé pour la fouille de données textuelles : analyse de l'usage des temps dans le discours" (rapport.pdf).
- Stage de DEA de Jord Novion (LIPN, 1995) sur l'utilisation de représentations iconiques dans les systèmes inférentiels.
- Stage de DEA de Karim Benchabane (LIPN, 1995) sur le traitement de l'aspect dans la DRT, basé sur les travaux de C. Smith.
- Thèse de Yong-Hong Chen (LRI-NSL) sur l'édition de programmes dirigée par la syntaxe, de 1989 à 1991.
- Stage de DEA de Yong-Hong Chen (LRI, Université Paris 11) sur un éditeur graphique de syntaxe abstraite, en 1988.


Cadre de recherche : Etude des Systèmes de Représentations Hétérogènes

Le champ naturel d'application des SRH recouvre de nombreuses branches de l'intelligence artificielle, allant de la physique qualitative et la robotique, à la modélisation cognitive du raisonnement, la recherche d'information ou l'analyse du langage naturel. Nous souhaitons en démontrer l'intérêt en travaillant, parallèlement au développement d'une théorie plus générale de ce type de systèmes, sur des champs d'applications qui pourront démontrer la pertinence de l'approche dans des domaines variés. Ces domaines sont potentiellement très nombreux et correspondent globalement à ceux où la maîtrise d'une architecture (complexe ou inconnue...) est nécessaire (ontologies, applications en langage naturel, langages de programmation ou de spécification divers).

Projet initial : Raisonner avec des diagrammes dans des Systèmes de Représentations Hétérogènes (SRH)

Bien que largement utilisés dans les raisonnements, que ce soit pour résoudre des problèmes en physique, en mathématiques ou en logique, les diagrammes et les représentations visuelles en général, ont souffert de la réputation de n'être qu'un outil heuristique dans la recherche de solutions, sorte de simple support pour l'intuition. Mais c'est oublier que les diagrammes peuvent aussi être vus comme des objets syntaxiques pouvant se prêter à des raisonnements logiques dans une perspective formelle. Si l'on adopte ce point de vue, le rejet des représentations diagrammatiques au profit des seules représentations linguistiques, apparaît comme un préjugé dont il convient de se défaire. Cette conviction, qu'une théorie générale des inférences valides peut-être développée indépendamment des modes de représentations a été défendue formellement par Barwise et Etchemendy dans les années 90, pour aboutir à la démonstration (faite par Shin en 1994), qu'un système de représentations diagrammatiques, inspiré des diagrammes de Venn et Peirce pouvait être établi comme formellement valide et complet dans le cadre usuel prévu par la logique, en utilisant des règles de manipulation de diagrammes elles-mêmes graphiques (effacement, union, etc.).

Le but à long terme de ce projet est de poursuivre les travaux qui ont contribué à désamorcer ce préjugé des logiciens contre les diagrammes, et de défendre l'intérêt des systèmes de représentations diagrammatiques (i.e. des systèmes comportant à la fois des représentations diagrammatiques et des représentations linguistiques) dans les modélisations cognitives, et dans le domaine de l'Informatique, en Intelligence Artificielle et en Informatique Fondamentale (=Programmation).

Dans le n°40 d'Intellectica (abstract et pdf), nous avons fait un état de l'art sur l'opposition textes/diagrammes, et nous avons isolé plusieurs caractéristiques des représentations diagrammatiques. Notre analyse nous a conduit à défendre que certains types de représentations ont sous certains aspects des propriétés antinomiques, et nous soutenons que seuls des systèmes de représentations hétérogènes (SRH), c'est-à-dire articulant des sous-systèmes manipulant des représentations par des aspects symboliques ou iconiques (c'est-à-dire grossièrement où la forme du symbole utilisé au sein de la représentation détermine le calcul supposé) - seuls ce type de systèmes "hybride" ou "hétérogène" relativement aux  langages et symboles utiliés, peuvent permettre de construire des modèles de raisonnement computationnellement et cognitivement plausibles.

Retour en haut de page


Sémantique du langage naturel

Recherches sur le temps et l'aspect

- De 1993 à 1996, j'ai travaillé sur les catégories verbales et l'analyse du temps et de l'aspect. Mon travail sur les verbes et les temps grammaticaux a donné lieu à un exposé sur les catégories de Vendler en mai 1996, à une Conférence à Bruxelles en 1997 et et à une publication en collaboration avec François Recanati dans les Cahiers Chronos en 1999. J'ai réinvesti depuis 2005 cette thématique en participant au groupe "Temps et aspect" du GDR 2521 Sémantique et Modélisation (semantique.free.fr) pour tenter de formuler mes propres intuitions (shémas divers) en les raccrochant aux termes ou aux problèmes qui ont cours actuellement en sémantique formelle.
- J'envisage parallèlement depuis 2006 la possibilité d'utiliser des techniques d'apprentissage numérique et de l'apprentissage non supervisé pour découvrir des motifs de structuration de textes ou de discours. Une première tentative concernant les suites de verbes (réduits à leur temps grammatical et à leur catégorie lexicale aspectuelle) a été menée avec succès, au moins sur le plan des publications, en utilisant le corpus de constats d'accidents de la MAIF qui a souvent servi à l'équipe (stage de Nicoleta Rogovschi, "Apprentissage numérique non-supervisé pour la fouille de données textuelles : analyse de l'usage des temps dans le discours"). Il y a là matière à d'autres expérimentations minimalistes pour la modélisation des dialogues, ne serait-ce qu'en intégrant une composante de représentation du temps du dialogue lui-même.
- Je suis membre du groupe de recherche Kairos depuis 2010. Il s'agit d'un projet exploratoire pluridisciplinaire Mathématiques-Informatique-Linguistique sur les expressions linguistiques associées aux séries calendaires déictiques et anaphoriques dans une perspective typologique.

Retour en haut de page
en
              construction
Ce qui suit est en cours de reconstruction. Je le laisse à titre indicatif en attendant une nouvelle version de ma page...

Background (sur la thématique Temps et Aspect):
Dans le projet de recherche du réseau CogniSeine "Modélisation cognitive de la représentation du temps et de l'espace dans la compréhension et la production du langage", mené par Richard Carter (à l'époque au CREA, laboratoire de l'Ecole Polytechnique) et Patricia Zablit de DASSAULT aviation, nous nous étions proposé d'étudier les propriétés spécifiques aux représentations du temps et de l'espace dans la cognition humaine, pour éclairer la production de programmes informatiques utilisant la langue naturelle. Les questions que nous cherchions à élucider concernaient principalement l'architecture, et les propriétés des structures de données nécessaires à de tels programmes. Richard Carter y a apporté ses intuitions linguistiques et son intelligence hors normes. C'est à lui que je dois d'avoir découvert ce champ de recherches potentielles, et je lui en suis très reconnaissante, car je lui dois aujourd'hui encore les idées formulées dans la section 3.1 de ma présentation de AGI-08, points sur lesquels je me suis contentée d'ajouter quelques remarques sur les espaces mentaux de Gilles Fauconnier.

Le modèle que nous avons tenté d'élaborer était fondé sur les hypothèses architecturales suivantes : (1) il existe dans le cerveau plusieurs modules de représentations propres à des aspects limités de domaines particuliers (comme l'espace, le temps, les situations); et (2) les capacités de représentation à l'œuvre dans ces modules ont un certain caractère, que nous appelions «quasi-analogique».

Ce qui était particulier à cette approche était une distinction cruciale entre, d'une part, nos connaissances fondamentales concernant certains aspects du monde (le temps, l'espace, la causalité, les propriétés générales des situations, des objets etc.), et, d'autre part, nos connaissances particulières concernant un grand nombre d'entités de types différents. Linguistiquement, ces dernières sont souvent évoquées par les lexèmes des classes ouvertes - noms, verbes, adjectifs - tandis que les premières, qui jouent un rôle automatique et très spécifique dans le processus de compréhension, sont à l'inverse le plus souvent associées aux lexèmes des classes grammaticales fermées (prépositions, marqueurs temporels et aspectuels, adverbes, particules).

La démarche originale de Patricia Zablit dans sa thèse, dans laquelle les objets théoriques des linguistes se trouvent instanciés par des objets/entités de programme, permet d'éviter certains débats linguistiques sur la nature des objets théoriques manipulés. Ainsi, le module du système activé par la présence de marques du temps grammatical dans notre système était conçu comme une capacité de représentation permettant d'instancier des relations temporelles entre des types de situations (états, activité ou événements) et des points de vue (perfectif/imperfectif). Un tel module produit ainsi des représentations obéissants à certaines contraintes (de linéarité, d'orientation, etc.) qui se trouvent encodées dans la forme même des structures de données produites. Cela permet de donner un statut particulier à certains éléments, interprétables pragmatiquement, comme la position temporelle du locuteur. Les questions de la granularité ou de l'utilisation de certaines notions peuvent alors se révéler être en réalité sans pertinence.

J'ai également encadré en 1995 un stage de DEA sur le traitement de l'aspect dans la théorie du discours. Ce stage était fondé sur le livre de Carlota Smith The parameter of Aspect qui proposait une théorie de l'aspect intégré au cadre de la DRT (Discourse Representation Theory) et visait à fournir une implantation de cette théorie pour le français. Ce stage m'aura donné l'occasion de bien étudier le livre de Carlota Smith, mais n'aura pas produit d'autres fruits.

Retour en haut de page

L'espace, l'apprentissage numérique et la linguistique

Mes recherches en sémantique ont tout naturellement d'abord porté sur l'espace (1992-94). Mes compétences en matière d'Interface graphique et mon gôut pour la géométrie en faisait pour moi un domaine d'attraction naturel, et ce d'autant plus que j'étais déjà familiarisé, via le séminaire de Gilles Fauconnier, avec les théories linguistiques de A. Herskovits et Claude Vandeloise. J'ai parcouru à l'époque une importante bibliographie sur les représentations spatiales qui a été à l'origine de ce que je considérais alors comme ma "reconversion" en matière de recherches professionnelles (passage de la Sémantique des langages de programmation, à la Sémantique du langage naturel). J'ai découvert parallèlement divers courants de modélisation en IA à deux workshops de l'IJCAI en août 93 (workshop Hybrid Representations et workshop Spatial & Temporal reasoning). Ces deux workshops, et diverses conférences auxquelles j'ai assisté alors, m'ont très profondément influencée et orienté mes recherches sur l'espace vers celles sur les représentations diagrammatiques.

J'ai mis à profit mon séjour de 1994 à Berkeley pour compléter ma formation linguistique sur le versant syntaxique, car j'étais gênée par l'aspect trop informel des théories sémantiques que j'avais rencontrées jusqu'alors. A Berkeley, j'ai suivi en particulier Formal Theories of Syntax, de S. Mchombo (spécialiste de grammaire bantu qui faisait un cours historique très intéressant), Linguistics in lexicography et Construction Grammar de C. Fillmore, Computational Linguistics de D. Jurafsky (séminaire)). J'ai pu également être introduite dans le groupe L-Zero de ICSI (groupe de recherche sur l'apprentissage des primitives spatiales) et cette année aura été formidablement enrichissante. Côté linguistique, j'ai resuivi ensuite aussi quelques cours de personnalités en détachement à Paris quand l'occasion s'est présentée (eg. Keenan, Cherchia et Melcu'k).

Je suis ensuite malheureusement tombée malade en 1995, mais ce premier contact à Berkeley avec l'apprentissage connexioniste, et l'espoir d'essayer de comprendre ce nouveau paradigme de programmes m'aura motivé à suivre (en 2001) le cours de DEA de Younès Bennani sur l'apprentissage connexioniste. Je l'ai assisté pour les soutenances de son module et j'ai participé aux réunions du projet LIPN-Numsight "WebMining", dont le but était d'appliquer des techniques d'apprentissages numériques à la modélisation du comportement des internautes d'un site Web. J'ai été consultant extérieur pour l'interface d'un module développé par Numsight, et j'ai fait partie du jury de thèse de K. Benabdeslem (2003). Le stage de Nicoleta Rogovschi, que Younès Bennani et moi avons co-encadré en 2006, a repris des aspects de la problématique abordée dans la thèse de K. Benabdeslem sur l'analyse de données structurées en séquences. L'aspect séquentiel est fondamentalement intéressant pour la structuration des données du langage, par essence même très linaire, et l'aspect visualisation des données statistiques et comment relier cet aspect au reste (interprétation ou programmation) est évidemment aussi très intéressant pour le cadre que j'aimerais développer actuellement (=SRH).

Retour en haut de page


Sémantique des langages et Programmation

Mes premières recherches en Informatique se sont focalisées sur la Programmation et les langages de programmation. J'ai implémenté en Lisp (pour le stage de DEA) un langage orienté objet (MPL), puis j'ai commencé ma thèse par une étude bibliographique de 6 mois sur les très nombreux langages orientés objets de l'époque. Pour des raisons contingentes, j'ai changé de directeur et de sujet de thèse, et je me suis penchée sur la correction et l'efficacité de l'implémentation des changements d'environnements en lisp.

Dans ce travail de thèse, j'ai d'abord étudié le lambda-calcul et la sémantique des lambda interprètes, afin de définir un lisp "propre". Le résultat a été la définition et l'implantation en C d'un interprète paresseux nommé Lambdix, qui implantait l'appel "par nécessité" (call by need) de manière efficace. (Avantage de ce type d'appel : on peut ainsi manipuler des structures de données potentiellement infinies définies récursivement et faire de l'évaluation partielle, en particulier contextualisée par les données, au niveau de la spécification fonctionnelle). Lambdix est né en même temps que Scheme (que je n'ai découvert qu'au moment de la rédaction). Bien que les deux langages soient très voisins dans l'esprit (=éliminer les effets pervers des laisons dynamiques non contrôlées en cas d'argument de type fonction), l'originalité de Lambdix demeure car elle réside en réalité dans un modèle de gestion des environnements qui lui est propre. Dans ce modèle, le coût de la restauration d'un environnement y est borné, et indépendant de l'environnement d'appel (c'est la profondeur lexicale).

Recherches à Non Standard Logics (1986-1990)

A mon arrivée à NSL en 1986, j'ai tout d'abord participé au projet Esprit CHAMELEON, en contribuant à la modélisation d'un système permettant de faire migrer des processus actifs sur un réseau de machines UNIX. L'implantation du système s'est fondée sur les compétences de hackers lisp (issus de Vincennes), et j'ai contribué à la rédaction des rapports techniques théoriques, en permettant d'exprimer les choses avec les deux opérateurs réflexifs que j'avais initialement introduit dans Lambdix. Je n'ai en réalité fait qu'introduire Alain Deutsch aux notations de la sémantique dénotationnelle, langue formelle nécessaire alors pour la reconnaissance universitaire, et lui même m'aura introduit aux macros LateX nécessaire pour la matérialisation de cette langue à l'époque, ce qui nous aura permis conjointement de finaliser la tâche rédactionnelle qui nous était confiée. Nos échanges intellectuels lui auront en fait permis d'envisager de s'inscrire en thèse, et il a quitté NSL peu de temps après moi pour reprendre effectivement des études. Il a ensuite été recruté par l'INRIA, mais il est mort prématurément (41 ans!) en 2006, après une trajectoire qu'on pourra qualifier d'exemplaire à bien des égards (cf. INRIA), et qui l'aura conduit à fonder sa propre entreprise Polyspace Technologies, aujourd'hui rachetée/hébergée par The MathWorks sous le sigle PolySpace pour vendre le logiciel très utile qu'il avait réalisé, et qui permet de détecter des erreurs d'exécution dans un programme.

A mon retour de congé maternité, j'ai été en charge du projet Esprit STAPLE. L'un des buts du projet était de montrer que la programmation fonctionnelle pouvait utilement être intégrée à un système de données persistantes pour améliorer la productivité des développement de programmes de taille industrielle. J'y étais Responsable du projet pour NSL, puis nommée Directeur du projet en 1988, suite à l'abandon du projet par l'un des principaux acteurs industriels.

Dans ce projet, l'Université de StAndrews avait spécifié un langage fonctionnel typé (voisin de Miranda) dont l'implémentation (compilateur, etc.) devait s'intégrer à une base de données persistantes. Ce langage implantait des mécanismes de persistence (provenant d'une technologie développée à Edinbourg), et tous les éléments du système (programmes, données, compilateur, éditeur, etc.) étaient stockés dans la même base et partageaient les mêmes types de données - objets structurés, et décrits par une même syntaxe réputée "abstraite". J'ai été, en tant qu'ingénieur de Recherche, en charge de la spécification et de l'implantation d'un éditeur syntaxique graphique pour ce langage typé -- éditeur permettant l'affichage des programmes comme textes, arbres (graphiques), ou dans un format de représentations mixtes utilisant à la fois du texte et des arbres. Le produit final développé, ABSYNTHE, permettait en réalité la génération automatiquement d'un éditeur très polymorphe, obtenu à partir de specifications de langages, donnés sous forme de syntaxe "abstraite" et de descriptions de syntaxes concrètes permettant d'en afficher une forme visualisable (de manière analogue au générateur d'éditeurs syntaxiques Mentor ou son successeur Centaur développé à Sophia Antipolis). On s'était comme Centaur offert le luxe d'une démonstration finale dans laquelle on mélangeait allègrement des arbres et des bouts de textes de langages de programmation différents, en l'occurrence du C et le langage fonctionnel du projet.

A NSL, j'ai parallèlement participé à la conception graphique et ergonomique de deux logiciels d'avant garde, Wish, un Shell icônique développé pour Atari (sur une idée originale de M. Beaudouin Lafon), et XFaceMaker, tout premier éditeur interactif de programmes disponible sur le marché, qui générait automatiquement du code Motif et était une refonte du prototype Grafiti développé dans la thèse de Solange Karsenti (dirigé également par M. Beaudouin Lafon). J'ai aussi acquis à cette époque des compétences sur le système X-Window en participant régulièrement aux sessions de formation pour Ingénieurs que proposaient NSL grâce aux talents de Patrick Amar.

Retour en haut de page