Laboratoire d'Informatique de Paris-Nord

LIPN – UMR 7030 du CNRS

 

LIPN, Institut Galilée, Université Paris 13

99, av. J.B. Clément  93430 Villetaneuse

http://www-lipn.univ-paris13.fr

 

La structuration et l’exploitation des données issues du web nécessitent le développement d’expertises multiples du fait de la diversité de la nature de ces données (comportement des internautes, données textuelles, services web, etc.). Ces expertises font appel à de nombreuses thématiques de recherches développées au laboratoire.

 

1. Apprentissage numérique

Y. Bennani (Professeur), K. Benaddeslem (Post-Doctorant CNRS), F. Zehraoui (DocteurDocteur[1])

 

La modélisation du comportement des utilisateurs (internautes) sur un site web est un enjeu important. Elle permet par exemple dans le contexte d’un site web de commerce électronique, d’analyser et de prédire le cheminement d’un visiteur, permettant ainsi des améliorations ciblées (e.g. ventes) de la structure et du contenu du site. Cette thématique a été au centre d’un contrat  de recherche entre le LIPN et la société Numsight-Consulting et a servi de domaine d’application pour la validation des travaux effectués dans le cadre de deux thèses de doctorat.

 

Un procédé de codage original des traces de navigation des internautes y a été proposé et utilisé pour construire une cartographie des usages du site web fournissant ainsi une représentation interprétable [1]. Cette technique a fait l’objet d’un brevet  international. Deux approches originales d’apprentissage connexionniste non-supervisé ont également été utilisées pour visualiser, classer et prédire le comportement des internautes. La première est fondée sur des techniques de mélange de modèles (Chaînes de Markov Cachées+Cartes topologiques) et la deuxième sur un modèle de Kohonen temporel original (M-SOM-ART) qui combine des propriétés de stabilité et de plasticité [2]. Cette dernière approche a permis d’implémenter  un système hybride de prédiction du comportement des internautes combinant le raisonnement à partir de cas (RàPC) et l’apprentissage connexionniste (elle a été utilisée pour implémenter à la fois la phase de recherche et la phase de réutilisation du cycle RàPC).

 

2. Raisonnement à partir de cas

R. Kanawati (MC), H. Karoui (Doctorante) , S. Salotti (MC), F. Zehraoui (Docteur1)

 

La méthodologie RàPC est principalement employée au laboratoire dans la fouille de données d’usages du web. Différentes applications ont été réalisées. L’une d’entre elles concerne la prédiction du comportement des utilisateurs d'un site de commerce électronique (cf. section précédente).

 

Une collaboration avec l’EISTI a par ailleurs permis de définir une approche RàPC pour l’adaptation automatique des sites web dynamiques. Un schéma de codage original des fichiers de traces de sites web, basé sur des actions comportementales, y assure une meilleure prise en compte de la nature dynamique des sites. Le RàPC est également employé au sein de systèmes multi-agents de type égal à égal (peer to peer) pour permettre à un groupe d’utilisateurs de partager leurs expériences de recherches d’informations sur le web. Deux systèmes ont été développés autour de cette problématique : un système pour la gestion coopérative de signets [3] et une application visant à améliorer le tri des réponses rendues par les moteurs de recherche.

 

 

3. Traitement automatique des langues

A. Nazarenko (MC[2]),T. Poibeau (CR1), T. Hamon (MC), T. Aït El Mekki (Docteur),  S. Szulman (MC), B. Biébow (MC), C. Fouqueré (Professeur)

 

La masse et la diversité de nature des données textuelles récupérables sur le web rendent leur exploitation difficile pour les utilisateurs, les moteurs de recherche actuels s’avérant souvent insuffisants.

 

L’équipe Représentation des Connaissances et Langage Naturel du LIPN développe depuis plusieurs années des techniques d’extraction d’information, de recherche documentaire et de navigation dans les documents [4]. Le développement de tels outils, en particulier dans les domaines de spécialité, repose sur des techniques d’analyse robuste des documents mais aussi sur des méthodes d’acquisition de connaissances à partir de textes, celles-ci permettant de construire les lexiques, ontologies, et règles d’extraction qui sont exploités pour l’analyse des documents [5].

 

Ces recherches ont débouché sur le développement de différents outils d’analyse des textes du web. IndDoc, par exemple, est un outil d’aide à la construction d’index pour faciliter la navigation dans les documents. Les contrats Caderige, ExtraPloDocs et aujourd’hui le projet européen STREP ALVIS portent sur la problématique de l’analyse des bases de données textuelles de biologie (comme Medline ou Flybase), facilement accessibles sur le web, mais dont l’exploitation efficace reste un problème critique pour les chercheurs en biologie.

 

Le problème de la pertinence des pages récupérables sur le web [6] a été attaqué dans le projet franco-québecois UQAM - LLI – LIPN en évaluant l’apport possible des techniques de traitement du langage à une recherche d’information ne reposant pas sur une organisation de la base de données textuelles. L’étude a été réalisée en mesurant l’effet d’une variation de la requête initiale sur la pertinence des pages récupérées. Elle constitue un premier pas vers la spécification de mécanismes de reformulation de requêtes intégrables aux moteurs de recherches.

 

Le web est également une source d’information pour l’acquisition de connaissances. Les travaux menés dans le domaine de l’ingénierie de connaissances à partir de textes ont conduit au développement de l’outil Terminae qui permet la construction d’ontologies à partir de textes. Cette approche a pu être appliquée sur des corpus extraits du web pour créer des ontologies de domaine possédant des biais applicatifs particuliers.

 

4. Programmation et services web

F. Lévy (Professeur), J-V. Loddo (MC), C. Fouqueré (Professeur), N. Amara‑Hachmi (Doctorante, sous la direction de A. El Fallah-Segrouchni du LIP6)

 

La mise en oeuvre des services web et la programmation de sites web dynamiques posent de nombreuses difficultés, liées à la distribution et au caractère dynamique des données et des programmes. Divers travaux menés au laboratoire touchent à cette problématique. La planification d’actions complexes dans les services web est l’objet d’une collaboration avec le CNET. On s’attache ici à caractériser les plans d’actions redondants, selon plusieurs critères de redondance, dans le but de maintenir une bibliothèque de plans pré-établis (utilisés lors de la détection de requêtes similaires) et d’étudier le choix du meilleur plan.

 

Les difficultés de programmation des sites et services web sont également abordées sous un angle plus théorique. Le but de ce projet est la définition et l’implémentation d'un langage de programmation dévoué à la programmation de sites ou services web, les langages usuels s’avérant inadaptés à cette tâche. Ce développement s’inscrit dans le cadre d’un projet européen ambitieux intégrant un traitement de données multimédia (projet HyperLearning).

 

La technologie des agents mobiles apporte aussi des solutions attractives relativement à ces questions, mais elle est difficilement accessible aux programmeurs. Une plate-forme de développement et d’exécution d’agents mobiles a été proposée pour résoudre ce problème d’accessibilité. L’effort a ici porté sur la modularité et l'adaptabilité des agents mobiles, ainsi que sur leurs propriétés de reconfiguration dynamique.

 

 

Bibliographie

 

[1] K. Benabdeslem K., Y. Bennani, E. Janvier, " Visualization and Analysis of Web Navigation Data", International Conference on Artificial Neural Networks (ICANN '02), pp. 486-491, Madrid, Espagne, Août 2002.

 

[2]  F. Zehraoui, Y. Bennani, « M-SOM-ART: Growing Self Organizing Map for sequence clustering and classification »,  European Conference on Artificial Intelligence (ECAI ‘04),  Valencia, Spain, August 2004.

 

[3]  R. Kanawati, M. Malek, « CoWing: A Collaborative Bookmark Management System », International Workshop on Collaborative Information Agents CIA'01,  Springer LANI 2182, pp. 38-44, Modena, septembre 2001.

 

[4] T. Poibeau, Extraction automatique d'information : du texte brut au web sémantique, Hermès, Paris, 2003.

 

[5] C. Nédellec, A. Nazarenko,  « Ontology and Information Extraction: a necessary Symbiosis », In, P. Buitelaar, P. Cimiano and B. Magnini (eds.), Ontology Learning from Text: Methods, Applications and Evaluation,  Advances in Artificial Intelligence, IOS Press, Amsterdam, à paraître 2005.

 

[6] L. Emirkanian, C. Fouqueré, F. Issac, « Corpus issus du Web : analyse des pertinences thématique et informationnelle », JADT 2004 , vol. 1, pp. 390-398.

 

 



[1] Récemment nommée MC à Evry.

[2] Récemment nommée Professeur à Paris 13.