Nous accueillerons Julie Séguéla de la Société Multiposting et du CNAM/ENSIIE - Centre d’Etude et De Recherche en Informatique et Communications.
Résumé:
Les entreprises disposent aujourd’hui de bases de données très volumineuses stockant les achats, notations ou usages de l’ensemble de leurs clients ou utilisateurs. Ces historiques peuvent être enrichis de variables descriptives des utilisateurs. Tirant profit de ces informations, les systèmes de recommandation ont pour objectif de fournir aux clients des suggestions personnalisées pour leurs prochaines utilisations ou consommations. Dans un contexte de démarrage à froid, le système ne dispose d’aucune information sur les préférences des utilisateurs, l’utilisation de données additionnelles est alors requise. Nous proposons une application innovante des systèmes de recommandation pour la prédiction du rendement d’une offre d’emploi publiée sur un site web dédié à l’emploi. Deux cas sont étudiés : l’offre n’a jamais été publiée (démarrage à froid), ou celle-ci a déjà été publiée par le passé sur un ou plusieurs sites d’emploi. Les offres sont décrites simultanément par des données textuelles et des données structurées. Nous introduisons un système hybride de recommandation, basé sur une mesure de similarité entre offres, permettant de gérer des données hétérogènes et de grande dimension. Ce système montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée.
Future posts
Thursday 31 May 2012
Thursday 31 May 2012 at 12.15 PM — Seminars
Monday 18 June 2012
Monday 18 June 2012 at 09.00 AM — Conferences
Dates importantes
______________________________
Le 18 mai : soumission du résumé de 10 lignes
L’inscription est gratuite mais obligatoire avant le 04 juin 2012.
______________________________Comment participer et s’inscrire
______________________________Si vous êtes intéressé par faire une présentation nous vous prions de manifester votre intention en soumettant via easychair un résumé de 10 lignes au plus tard le 18 mai 2012. Les présentations pourront durer 30 min et concerner : vos travaux récents, une présentation de synthèse de votre équipe, les résultats d’une thèse en cours, des données sur lesquelles vous travaillez, des présentations de projets en cours, etc. Un intérêt particulier est porté aux travaux menés par les doctorants.
L’inscription est gratuite mais obligatoire avant le 04 juin 2012. Pour vous inscrire cela se passe ici.
________________
Objectifs :
________________
Les groupes de travail de l’association EGC : "Fouille de Données Complexes" (GT-FDC), "Fouille de Grands Graphes" (GT-FGG) et "Visualisation d’informations, interaction et fouille de données" (GT-VIF, commun avec l’AFIHM) organisent conjointement deux journées thématiques visant d’une part à poursuivre les activités des groupes et d’autre part à développer des axes communs autour de la complexité liée à la fouille des données massives (big data). Dans ce contexte, les problématiques abordées lors de ces deux journées peuvent concerner les processus (acquisition, structuration, extraction d’information et de connaissances et la visualisation) ou les données elles-mêmes. L’objectif de ces journées est de rassembler l’ensemble des acteurs de la communauté scientifique intéressés par ces nouvelles approches de la fouille de données massives afin de susciter des interactions entre chercheurs du domaine et d’animer/de dynamiser cette communauté. Des conférenciers invités présenteront leurs travaux.
De façon non limitative, nous sollicitons des communications sur les thématiques suivantes :
- Connaissances et classification d’objets complexes multi-sources
- Structuration et organisation des données massives (big data)
- Solutions émergentes en matière de traitements parallèles, décentralisés et/ou collaboratifs des données (cloud computing, GPU, ...)
- Visualisation d’informations, fouille visuelle de données, visualisation analytique
- Classification interactive, fouille et découverte interactive supervisée ou non supervisée,
- Fouille et analyse des données de grands graphes
- Dynamique des grands graphes
- Architectures logicielles et matérielles pour la fouille et la visualisation de données massives
- Applications et réalisations industrielles : données médicales et scientifiques, marketing, réseaux sociaux, ...
subventions pour participation
_______________________________
Des subventions seront accordées dans différentes conditions (voir procédure sur le site de l’organisation locale) :
- le transport des orateurs étudiants pourra être pris en charge, sur la base des titres de transports de train 2ème classe,
- pour les membres de l’AFIHM (Association Francophone d’Interface Homme-Machine), les déplacements peuvent être pris en charge.
______________________________
Comité d’organisation
______________________________
GT - FDC (http://eric.univ-lyon2.fr/~gt-fdc/)
Guillaume Cleuziou (LIFO, Univ. Orléans)
Cyril de Runz (CReSTIC, Univ. de Reims)
Mustapha Lebbah (LIPN, Univ. Paris 13)
Cedric Wemmert (LSIIT, Univ. Strasbourg)
GT - FGG (http://www.polytech.univ-nantes.fr/GT-FGG/)
Hanene Azzag (LIPN, Univ. Paris 13)
Lydia Boudjeloud (LITA, Univ. Metz)
Rushed Kanawati (LIPN, Univ. Paris 13)
Fabien Picarougne (LINA, Univ. Nantes)
Bruno Pinaud (LABRI, Univ. Bordeaux)
GT - VIF (http://wiki.afihm.org/index.php?title=GT_VIF)
Monique Noirhomme (FUNDP, Namur, Belgique)
Pascale Kuntz (LINA, Univ. Nantes)
David Auber (LABRI, Univ. Bordeaux)
Gilles Venturini (LI, Univ. Tours)
Organisateurs locaux : Octavio Razafindramanana, Barthélémy Serres, Gilles Venturini
Thursday 28 June 2012
Thursday 28 June 2012 at 12.55 PM — Conferences
L’apprentissage artificiel recouvre différents aspects d’études mathématiques, statistiques et algorithmiques. Ses applications sont très importantes, notamment pour le traitement de données scientifiques, pour l’ingénierie, et pour les systèmes d’information.
L’Université Paris 13, avec l’appui du groupe Data Mining et Apprentissage de la SFdS (Société Française de Statistique), organise les 28 et 29 juin 2012 la cinquième édition du colloque AAFD "Apprentissage Artificiel & Fouille de Données" à l’Institut Galilée. Cette manifestation réunit plus d’une centaine de chercheurs et d’industriels travaillant dans ce domaine. Le colloque AAFD a pour objectif premier de permettre aux intéressés de mieux découvrir ce domaine et avoir une vision synthétique sur l’état de l’art, et aux spécialistes de nouer des contacts avec d’autres équipes de recherche. Le thème central de cette manifestation est l’utilisation des techniques d’apprentissage artificiel pour l’analyse et l’exploration de données afin d’en comprendre le sens, de déceler des relations entre des événements, d’en déduire des modèles de comportement.
L’objectif de ces journées est de faire le point sur l’état de l’art des techniques et des applications utilisant l’apprentissage artificiel dans le domaine de la fouille de données. Elles constitueront une opportunité de rencontres entre chercheurs et industriels oeuvrant dans le domaine de l’extraction de connaissances et l’apprentissage artificiel à partir de données.
>>> Inscription sans frais mais obligatoire, déjeuner offert sur place <<<
Comité Scientifique:
Y. Bennani (LIPN-UP13)
E. Viennet (L2TI-UP13)
Accueil et logistique:
B. Guéveneux
M. Fontanillas
A. Wilk
F. Zaazoui
Partenaires : Université Paris 13, LIPN, L2TI, ANR, Cap Digital, Numsight, SFdS, EGC, AFIA,
Précédentes éditions : juin 2010, avril 2008, avril 2006.
Past posts
Monday 14 May 2012
Monday 14 May 2012 at 02.00 PM — Seminars
Le 14 mai 2012, à 14h en salle B311, le séminaire LCR accueille Beniamino Accattoli (LIX).
In some works in collaboration with Stefano Guerrini and Delia Kesner I developed a new approach to explicit substitutions, arising from Linear Logic proof-nets. The idea is to design calculi mimicking closely the dynamics of the graphical cut-elimination rules. Proof-nets and terms have very different notions of locality: this fact induce non-local, "at a distance" rewriting rules on terms. Substitution calculi at a distance are half-way lambda calculus and typical explicit substitution calculi: they retain most of the simplicity of lambda calculus, keeping the subtleties and the finer evaluation of explicit substitutions. In a series of recent works (some of which are joint works with Delia Kesner, Luca Paolini or Ugo Dal Lago) I explored systematically the rewriting theory of these calculi. In the talk I will survey the problems I studied (confluence, preservation of strong normalization, sigma-equivalence, developments, solvability, factorization, standardization, residuals) and the results I obtained, showing how they provide new understandings of classical notions and results - and sometimes even new results - in the theory of lambda-calculus.
Monday 7 May 2012
Monday 7 May 2012 at 11.00 AM — Seminars
Oratrice : Delphine Battistelli, MdC HDR, Université Paris Sorbonne, UFR ISHA (Institut des Sciences Humaines Appliquées), équipe STIH (Sens, Texte, Informatique, Histoire), membre associé du laboratoire MoDyCo (Modèles, Dynamiques, Corpus)
Résumé :
Je présenterai lors de cet exposé la manière dont j’envisage une articulation plus explicite entre sémantique linguistique, TAL et IC pour ce qui concerne en particulier la temporalité.
Il convient en effet selon moi d’opérer une distinction claire entre :
(i) l’analyse de la temporalité linguistique en tant que telle (c’est-à-dire en tant que catégorie sémantique langagière telle qu’elle est circonscrite et analysée dans les travaux de linguistique) ;
(ii) des visées de traitement (intuitives et applicatives) qui peuvent lui être associées (généralement, ce sont l’ordonnancement temporel et l’ancrage calendaire de situations factuelles) ;
(iii) en relation avec des besoins (en une analyse temporelle) de communautés d’utilisateurs données.
Souligner cette distinction, c’est pour moi faire mieux ressortir la complémentarité de ces points de vue. Il ressort en effet de (i) que l’ensemble (ii) peut alors être étendu (au calcul du degré de factualité des évènements par exemple) et que (ii) et (iii) fournissent des outils d’évaluation empirique de la pertinence de (i).
Ce point de vue méthodologique exploite le rapprochement manifeste ces dernières années entre les domaines du TAL et de la recherche d’information pour ce qui concerne la fouille et l’analyse sémantique de données textuelles. L’enjeu se situe bien sûr à l’aune d’une masse croissante de documents textuels de types très divers qui, si l’on y regarde de plus près, invitent à des angles d’analyse eux-mêmes très variés de la temporalité linguistique (on abordera par exemple plus facilement la question de la modalité dans des textes scientifiques que celle du temps, qui lui sera plutôt étudié dans des textes narratifs ou historiques, les marques énonciatives de points de vue étant elles l’objet de travaux sur des textes plutôt journalistiques et vecteurs d’opinions, etc.). Ce constat empirique reflète au demeurant une conception déjà inscrite dans l’analyse strictement linguistique de la temporalité qui met l’accent traditionnellement sur l’étroite interaction entre quatre dimensions sémantiques : l’aspect, le temps, la modalité et l’énonciation.
Je présenterai ici deux cas d’usage (développés au sein de deux projets de recherche distincts) qui me semblent particulièrement illustratifs : l’un accès sur la visualisation de chronologies évènementielles à partir d’un corpus de dépêches AFP ; l’autre accès sur l’analyse de la modalité dans des textes du domaine de la biologie. Dans les deux cas, il s’agit de montrer que des informations repérées dans les textes sont susceptibles d’être constituées en connaissances en regard des quatre dimensions sus-mentionnées – combinées ou non entre elles – par des experts d’un domaine donné et donc de participer à une ingénierie des connaissances textuelles.
Monday 30 April 2012
Monday 30 April 2012 at 02.00 PM — Seminars
Le 30 avril 2012, à 14h en salle B311, le séminaire LCR accueille Barbara Petit (Bologne).
Monday 23 April 2012
Monday 23 April 2012 at 02.00 PM — Seminars
Le 23 avril 2012, à 14h en salle B311, le séminaire LCR accueille Paolo Parisen Toldin (Bologne).
Contrary to ICC standard approach, we present a small WHILE language characterizing the class PP.
The main problem concerning the imperative approach is to understand how informations/values flow throw variables in a program.
In literature are well known many works that have polytime soundness but just few of them (using the imperative paradigm) are able to give a polytime completeness.
Our system, MAL0 (Multiplied, Affine, Linear, 0 dependeces ), is sound and complete. Moreover, our system can be used also to check if a program is running in probabilistic polytime (can be easily restrict to just polytime soundness). We claim that, contrary to works found in literature, our system is able to certify a program in polytime.
This is a joint work in progress with Jean-Yves Moyen.
Friday 13 April 2012
Friday 13 April 2012 at 12.00 PM — Seminars
Invité : Jean-Charles Lamirel, D. HDR, Equipe SYNALP, LORIA
Le paradigme MVDA (Multi-View Data Analysis) couvre à la fois le domaine de l’analyse de données et celui de la fouille de données. Il est plus spécifiquement dédié au traitement des données textuelles et multimédia, sans toutefois s’y limiter. Selon celui-ci, chaque analyse de données est considérée comme une vue différente sur les données. Le croisement entre les vues s’opère par l’intermédiaire d’un réseau bayésien construit, de manière non supervisée, à partir des données ou des propriétés partagées entre ces dernières. Le paradigme MDVA repose également sur l’exploitation de méthodes spécifiques de visualisation, comme la visualisation topographique ou la visualisation hyperbolique, qui permettant de gérer une interaction systémique entre les modèles obtenus et l’analyste. La mise en place de nouveaux estimateurs de qualité du clustering de type Rappel/Précision non supervisés basés sur l’analyse de la distribution des propriétés associées aux classes, et qui sont indépendants à la fois des méthodes de clustering et des changements relatifs à leur mode opératoire (initialisation, distances utilisées ...), nous a permis de démontrer objectivement les avantages de ce paradigme par rapport à l’approche globale, classique en analyse de données. Elle nous a également permis de comparer et d’intégrer dans le paradigme MVDA des méthodes de clustering neuronales, basées sur un nouveau principe de maximisation d’étiquetage, qui sont plus particulièrement adaptées à la gestion des données ultra-éparses et fortement multidimensionnelles, à l’image des données textuelles, ainsi que d’optimiser le mode opératoire de telles méthodes. Notre démarche a par ailleurs impliqué de développer la cohabitation entre le raisonnement neuronal et le raisonnement symbolique, ou entre des modèles de nature différente, de manière à couvrir l’ensemble des fonctions de recherche et d’analyse de l’information et à éliminer, sinon à réduire, les défauts inhérents à chacun des types d’approche.
A travers plusieurs applications, nous montrerons comment l’exploitation d’un tel paradigme peut permettre de résoudre des problèmes complexes d’analyse des données textuelles, comme ceux liés, en veille, à l’analyse sémantique de corpus de brevets, en scientométrie, à l’analyse diachronique à grande échelle des corpus bibliographiques, ou en TAL, à la classification et à l’étiquetage automatisés des catégories syntaxiques.
Nous aborderons dans un dernier temps le problème de la classification supervisée des données textuelles, et décrirons les travaux que nous avons menés en exploitant le principe de la détection de nouveauté, pour obtenir des méthodes de catégorisation à large champ, telle que la méthode ILoNDF, qui s’avèrent supérieures aux références usuelles du domaine, comme SVM, sur le texte. Nous montrerons finalement comment il est possible d’envisager l’intégration de ce type de méthode dans un contexte multi-vues.
Monday 2 April 2012
Monday 2 April 2012 at 10.15 AM — Seminars
Présenté par : Fayçal Hamdi, post-doctorant au laboratoire COGIT de l’IGN
Résumé :
Je présenterai tout d’abord les approches d’adaptation d’un processus
d’alignement aux caractéristiques des ontologies alignées, qu’il
s’agisse de caractéristiques quantitatives telles que leur volume ou de
caractéristiques particulières liées par exemple à la façon dont les
labels des concepts sont construits.
Concernant les caractéristiques quantitatives, je présenterai deux
méthodes de partitionnement d’ontologies qui permettent l’alignement des
ontologies très volumineuses. Ces deux méthodes génèrent, en entrée du
processus d’alignement, des sous ensembles de taille raisonnable des
deux ontologies à aligner en prenant en compte dès le départ l’objectif
d’alignement dans le processus de partitionnement.
Concernant les caractéristiques particulières des ontologies alignées,
je présenterai l’environnement TaxoMap Framework qui permet la
spécification de traitements de raffinement à partir de primitives
prédéfinies. Je présenterai le langage de patrons MPL (the Mapping
Pattern Language) que j’ai proposé pour spécifier les traitements de
raffinement.
En plus des approches d’adaptation aux caractéristiques des ontologies
alignées, je présenterai les approches de réutilisation des résultats
d’alignement pour l’ingénierie ontologique. Je me focaliserai plus
particulièrement sur l’utilisation de l’alignement pour l’enrichissement
d’ontologies. Je présenterai une étude de l’apport des techniques
d’alignement pour l’enrichissement et l’impact des caractéristiques de
la ressource externe utilisée comme source d’enrichissement.
Enfin, je présenterai la façon dont l’environnement TaxoMap Framework a
été implémenté et les expérimentations réalisées : des tests sur le
module d’alignement TaxoMap, sur l’approche de raffinement de mappings,
sur les méthodes de partitionnement d’ontologies de très grande taille
et sur l’approche d’enrichissement d’ontologies.
Monday 26 March 2012
Monday 26 March 2012 at 10.15 AM — Seminars
Orateur: Konstantin Todorov, post-doctorant du Laboratoire de Mathématiques Appliquées aux Systèmes de l’Ecole Centrale Paris.
Résumé: In collaborative contexts, multiple independently created ontologies often need to be brought together in order to enable their interoperability. These ontologies have an impaired collaborative functionality, due to heterogeneities coming from the decentralized nature of their acquisition, differences in scopes and application purposes and mismatches in syntax and terminology. We present an approach to build a combined knowledge body for a set of domain ontologies, which captures and exposes various relations holding between the concepts of these ontologies, such as their relative generality or specificity, their shared commonality or complementarity. We situate our approach in a fuzzy framework, where every domain concept is represented as a fuzzy set of the concepts of a particular reference ontology. This can be seen as a projection of all domain source concepts onto a common semantic space, where distances and relations between any two concepts can be expressed under fixed criteria.
« previous entries - page 1 of 26
![[LIPN]](/blog-themes/lipn-automne/img/logo_lipn.png)
![[CNRS]](/blog-themes/lipn-automne/img/logo_cnrs.png)
![[Université Paris 13]](/blog-themes/lipn-automne/img/logo_paris13.png)
About the ICS format