Les modèles probabilistes à variables latentes répondent d’une manière rigoureuse, flexible et interprétable aux divers besoins en traitement de l’information, tel que le signal, l’image, etc, comme la représentation, la classification, la réduction de dimensionalité, le suivi temporel, etc. Dans ce séminaire je présenterai de nouvelles approches probabilistes pour modéliser, segmenter, classer et suivre temporellement des données temporelles structurées en séquences. La première partie du séminaire concerne la modélisation et la segmentation, aussi bien d’une séquence que d’un ensemble de séquences (courbes), par un modèle de régression spécifique incorporant un processus logistique caché. Dans la seconde partie, je traiterai de la classification supervisée et non supervisée de données temporelles. Le cas supervisé est traité via une approche de type analyse discriminante fonctionnelle et le cas non supervisé par une formulation spécifique de mélange de densités. La dernière partie concerne le suivi de séquence de données au cours du temps par un modèle autorégressif dynamique régi par un processus markovien non-homogène.
Keyword - AAPN
Monday 18 October 2010
Monday 18 October 2010 at 09.48 AM — Seminars
Orateur : Yann Chevaleyre Date : jeudi 21 octobre à 10h15 Lieu : B311
Un agent logiciel cherchant à répondre au besoin d’un utilisateur fait face à deux problèmes majeurs: d’abord, pour satisfaire l’utilisateur, il faut connaitre ses préférences. Pour ce faire, l’agent logiciel peut par exemple observer le comportement de l’utilisateur pour apprendre ses préférences. Ensuite, une fois qu’on dispose d’un modèle des préférences de l’utilisateur, il s’agit de chercher la séquence d’actions qui le satisfasse au mieux. Lorsque l’environnement est inconnu du logiciel, il s’agit d’un problème d’apprentissage par renforcement, dans lequel les récompenses associées à chaque état sont calculées à partir des préférences de l’utilisateur.
Ce séminaire est structuré en trois parties. Dans la première partie, nous aborderons le problème de l’apprentissage des préférences. Nous montrerons d’abord les liens étroits de ce problème avec le cadre plus classique de l’apprentissage supervisé. Ensuite, nous distinguerons l’apprentissage de modèles symboliques et numériques. Parmi les modèles symboliques, nous présenterons quelques résultats concernant les modèles basés sur l’hypothèse "ceteris partibus", et nous montrerons la complexité algorithmique prohibitive de leur apprentissage. Nous montrerons de plus qu’avec des modèles numériques adéquats, on obtient des langages tout aussi expressifs, mais de complexité algorithmique moindre.
Dans la seconde partie, nous traiterons d’apprentissage par renforcement dans des environnements de grande taille. Lorsque le nombre d’états constituant l’environnement est très grand, le temps d’apprentissage devient prohibitif, et il est alors nécessaire d’employer des méthodes approchées. Si l’on a à disposition des connaissances d’un expert du domaine, on peut les utiliser pour guider l’exploration de l’agent apprenant et accélérer l’apprentissage. Nous montrerons comment exploiter ces connaissances de façon presque optimales. En particulier, nous montrerons que déterminer à quel moment utiliser les connaissances de l’expert se ramène au problème des "bandits-manchots", pour lequel des algorithmes à garantie de performance existent. Nous détaillerons enfin une application de ces recherches au domaine de la simulation du jeu de football.
Si plusieurs utilisateurs sont concernés par les décisions prises par l’agent logiciel, ce dernier doit prendre en compte les préférences de chacun, et les agréger d’une façon à la fois efficace et équitable. Dans cette troisième et dernière partie, j’effectuerai un survol rapide d’un autre aspect de mes recherches: les problèmes de décision collective. Je montrerai certains des résultats que j’ai obtenu en théorie du vote, dans les problèmes d’allocation de ressource et en négociation automatique.
Tuesday 7 July 2009
Tuesday 7 July 2009 at 12.30 PM — Seminars
Quantitative structure-activity relationships (QSARs) are regression models relating chemical structure to biological activity, allowing to make predictions for toxicologically or pharmacologically relevant endpoints, which constitute the target outcomes of trials or experiments. The task is often tackled by instance-based methods (like k-Nearest
Neighbors), which are all based on the notion of chemical (dis-)similarity. Clearly, it would be desirable to determine for a given QSAR dataset, a priori, a suitable distance measure. Our starting point is the observation by Raymond and Willett that the two big families of chemical distance measures, finger-print based and maximum common subgaph based measures, provide orthogonal information about chemical (dis-)similarity. We define a simple new distance measure weighting representatives of the two families, propose an optimization scheme for learning optimal weights for those measures combined, and investigate the transfer and adaptation of the weights from one problem to another, related problem with a similar or identical endpoint. Our experiments suggest that learning distance measures for QSAR (here formally defined as regression on molecular graphs) is feasible, and that the success of transferring and adapting such distance measures depends, amongst others, on training set size.
Thursday 18 June 2009
Thursday 18 June 2009 at 08.30 AM — Conferences
APPEL A PARTICIPATION
Groupe de Travail EGC sur la
Fouille de Données Complexes (GT EGC-FDC)
Complexité liée aux données multiples
http://www.ensieta.fr/e3i2/jfdc/Programme_reunion_18juin2009.htm
Monday 25 May 2009
Monday 25 May 2009 at 07.52 AM — Conferences
Appel à communications CAp 2009
11ème Conférence francophone sur l’Apprentissage artificiel dans le cadre de la plate-forme AFIA, du 25 au 29 mai 2009 à Hammamet, TunisieDate limite de soumission des résumés : 15 janvier 2009
Date limite de soumission des articles : 30 janvier 2009
(aucune extension de cette date ne sera possible)
voir modalités sur http://sites.google.com/site/
contact : cap2009 (at) googlegroups.com
Monday 25 May 2009 at 09.17 PM — Conferences
Cet atelier a pour but de réunir les chercheurs intéressés par l’utilisation conjointe des méthodes d’apprentissage et des méthodes de visualisation dans le cadre de la fouille de données complexes. Nous souhaitons stimuler particulièrement des discussions aussi bien sur des points de vue expérimental que théorique, académiques et industriels, et en regroupant des travaux confirmés avec d’autres plutôt en émergence.
*http://sites.google.com/site/appvisu/
*L’inscription est ouverte sur le site : http://www.afia-france.org/tiki-index.php?page=InscriptionsThursday 9 April 2009
Thursday 9 April 2009 at 01.00 PM — Seminars
Dans le cadre de nos travaux, nous nous intéressons au problème de la classification et de la prévision de données hétérogènes, que nous proposons d’étudier à travers deux approches principales. Dans la première, une nouvelle approche de classification automatique basée sur une technique de la théorie des graphes appelée b-coloration a été mise en place. La b-coloration d’un graphe G est une affectation des couleurs (classes) aux sommets de G tels que deux sommets adjacents (dissimilaires) ne portent pas la même couleur (coloration propre) et pour chaque classe de couleur il existe au moins un sommet dominant adjacent à toutes les autres couleurs. Les performances de cette approche ont été validées sur différents types de données, à savoir des données benchmark, des images archéologiques (dans le cadre d’un projet européen TArcHNA) et également sur des données de natures variées issues du système d’information hospitalier français (PMSI) (variables classiques comme l’âge ou le sexe, variables symboliques comme l’ensemble des actes médicaux, les diagnostics, etc). L’objectif étant de définir une typologie plus fine des séjours hospitaliers pour remédier aux problèmes associés à la classification existante en groupes homogènes de malades (GHM). Nous avons également développé l’apprentissage incrémental associé à cette approche, ce qui permet à de nouvelles données d’être automatiquement intégrées dans la partition initialement générée sans avoir à relancer la classification globale. Le deuxième apport de notre travail concerne l’analyse de données séquentielles. Nous proposons de combiner la méthode de classification précédente avec les modèles de mélange markovien, afin d’obtenir une partition de séquences temporelles en groupes homogènes et significatifs. Le modèle obtenu assure une bonne interprétation des classes construites et permet d’autre part d’estimer l’évolution des séquences d’une classe donnée. Se basant sur cette approche, nous avons cherché à définir une typologie des trajectoires patient (succession de séjours hospitaliers d’un même patient) afin de prévoir de manière statistique les caractéristiques du prochain séjour d’un patient arrivant dans un établissement de soins. La méthodologie globale offre ainsi un environnement d’aide à la décision pour le suivi et la maîtrise de l’organisation du système des soins.
Finalement, des travaux actuels seront également introduits pour (1) l’étude de l’apport des techniques de coloration de graphes pour la segmentation des cartes topologiques de Kohonen (SOM), (2) la combinaison de différentes partitions (consensus de classification ou clustering ensemble). Ces partitions peuvent être obtenues sur une ou plusieurs sources de données et (3) la sélection de variables caractéristiques de classes d’une partition pour expliquer un phénomène donné qui peut être représenté par une ou plusieurs variables « cible ».Thursday 9 April 2009 at 02.30 PM — Seminars
Qu’il s’agisse de classification supervisée ou non supervisée, la représentation des données a une influence majeure sur les algorithmes de classification. Le choix de la représentation des données, et donc des descripteurs utilisés, est une étape cruciale pour l’étude d’un phénomène, mais qui est cependant souvent négligée. Deux méthodes de transformation de données, appliqués à deux problèmes différents seront présentés. La première est une méthode de pondération locale d’attributs pour la classification non supervisée, appliquée dans le cadre des image de télédétection hyperspectrales. La seconde est une méthode de réorganisation des éléments chimiques utilisée pour améliorer la prédiction de formation de composés par des méthodes supervisées.
Thursday 26 March 2009
Thursday 26 March 2009 at 01.00 PM — Seminars
Nous nous intéressons dans cette étude à la classification non-supervisée de données multi-représentées (ou multi-vues), i.e. des données décrites par plusieurs sources d’information (ensembles d’attributs ou matrices de proximités). Ce domaine d’étude trouve ses principales applications en recherche d’information, en biologie ou encore en chimie. Il s’agit alors de proposer un cadre méthodologique permettant la recherche d’une classification réalisant un consensus entre les différentes représentations. Dans ce cadre, la fusion des informations issues de chacune des sources est nécessaire. Cette fusion peut être réalisée en amont du processus de classification (fusion a priori), en aval (fusion a posteriori) ou pendant le processus (approche collaborative). Nous nous inspirons du travail récent de Bickel et Sheffer visant à étendre les modèles de mélanges au cas des données multi-représentées (Co-EM) et proposons un modèle de classification floue généralisant à la fois les approches collaboratives, de fusion a priori et a posteriori. Les expérimentations proposées valident l’étude sur un jeu de données adapté. Nous montrons enfin que ce modèle peut facilement s’étendre au cas semi-supervisé.
Thursday 26 March 2009 at 03.00 PM — Seminars
Abstract. Modeling societies of individuals is a challenging task increasingly attracting the interest of the machine learning community. Here we present an application of graphical model methods in order to model the behavior of an ant colony. Ants are tagged with RFID so that their paths through the environment can be constantly recorded. A Structured Hdden Markov Model has been used to build up the model of individual activities. Then, the global profile of the colony has been traced during the migration from one nest to another. The method provided significant information concerning the social dynamics of ant colonies.
« previous entries - page 1 of 2
![[LIPN]](/blog-themes/lipn-automne/img/logo_lipn.png)
![[CNRS]](/blog-themes/lipn-automne/img/logo_cnrs.png)
![[Université Paris 13]](/blog-themes/lipn-automne/img/logo_paris13.png)

About the ICS format