Actualités du LIPN

[LIPN] [CNRS] [Université Paris 13]

To content | To menu | To search

Keyword - apprentissage numérique

Past posts

Wednesday 4 May 2011

Apprentissage de politiques de simulations pour l'algorithme Monte-Carlo Tree Search

fr 

L’algorithme Monte-Carlo Tree Search (MCTS) est un algorithme d’exploration d’arbre basé sur une évaluation par simulations Monte-Carlo. Il a notamment permis une forte progression dans le domaine du Computer Go mais est également efficace dans de nombreux problèmes ne disposant pas de fonction d’évaluation efficace. Les performances de l’algorithme dépendent fortement des simulations Monte-Carlo. L’ajout de connaissances expertes permet des les améliorer considérablement mais rend l’algorithme très dépendant du domaine. Je propose ici plusieurs méthodes pour améliorer l’efficacité des simulations Monte-Carlo en apprenant une nouvelle politique en fonction des résultats des simulations précédentes. J’obtiens ainsi une amélioration significative des performances tout en conservant la généricité de l’algorithme

Tuesday 26 April 2011

Apprentissage de modèles statistiques à partir de données temporelles

fr 

Les modèles probabilistes à variables latentes répondent d’une manière rigoureuse, flexible et interprétable aux divers besoins en traitement de l’information, tel que le signal, l’image, etc, comme la représentation, la classification, la réduction de dimensionalité, le suivi temporel, etc. Dans ce séminaire je présenterai de nouvelles approches probabilistes pour modéliser, segmenter, classer et suivre temporellement des données temporelles structurées en séquences. La première partie du séminaire concerne la modélisation et la segmentation, aussi bien d’une séquence que d’un ensemble de séquences (courbes), par un modèle de régression spécifique incorporant un processus logistique caché. Dans la seconde partie, je traiterai de la classification supervisée et non supervisée de données temporelles. Le cas supervisé est traité via une approche de type analyse discriminante fonctionnelle et le cas non supervisé par une formulation spécifique de mélange de densités. La dernière partie concerne le suivi de séquence de données au cours du temps par un modèle autorégressif dynamique régi par un processus markovien non-homogène.

Thursday 25 March 2010

Conditional Random Fields - Workshop et Journée ATALA

fr 

Organisation : Isabelle Tellier (LIFO - Université d’Orléans), Thomas Lavergne (LIMSI - CNRS), Antoine Rozenknop (LIPN - Université Paris 13).
Lieu : Paris, Telecom ParisTech - 46 rue Barrault 75013 Paris.

Jeudi 25 mars, amphi B310 : tutoriels (en français) sur les CRF

Aucun pré-requis n’est nécessaire pour suivre cette journée. Le matin sera consacré à des cours d’introduction, l’après-midi à des TD sur machine. Les participants sont invités à venir avec un ordinateur portable sur lequel sera préalablement installé le logiciel crf++ :
http://crfpp.sourceforge.net/.
Les enseignants auront à disposition des corpus d’exemples sur lesquels travailler. Si vous avez vous-même un corpus et une tâche à tester, précisez-le lors de votre inscription.

-  09:15-09:30 : accueil
-  09:30-10:30 : Introduction aux CRF (I. Tellier)
-  10:30-11:00 : pause
-  11:00-11:45 : Entraînement et Optimisation (F. Yvon)
-  11:45-12:30 : Inférence (M. Tommasi)
-  12:30-14:00 : Lunch
-  14:00-15:00 : Travaux Pratiques-I (T. Lavergne, N. Sokolovska)
-  15:00-16:00 : Travaux Pratiques-II (S. Taalab, S. Billot)
-  16:00-16:30 : Pause
-  16:30-17:30 : Travaux Pratiques-III : XCRF ou données perso (E. Moreau, J.P. Prost)

Vendredi 26, amphi Thevenin : journée ATALA

http://www.atala.org/-Programme-des... (en anglais)

Cette deuxième journée sera consacrée aux perspectives de recherche actuelles sur les CRF pour le TAL.

-  09:00-09:15 : Welcome
-  09:15-10:15 : invited 1 : Scaling Conditional Random Fields using Error Correcting Output Coding (Trevor Cohn)
-  10:15-10:35 : Morpho-syntactic labelling of an oral corpus by decomposing labels (I. Tellier, I. Eshkol, S. Taalab, S. Billot)
-  10:35-10:55 : Utilisation des CRFs pour la segmentation événementielle des textes (J.L. Ludovic, R. Besançon, O. Ferret)
-  10:55-11:15 : Pause
-  11:15-11:35 : Modèles discriminants mot à mot (A. Allauzen, G. Wiesniewski)
-  11:35-12:35 : invited 2 : Conditional Undirected Graphical Models in Machine Translation (Phil Blunsom)
-  12:35-14:00 : lunch
-  14:00-15:00 : invited 3 : Markov and Discriminative Random Fields applied to Information Extraction in Document Images (Thierry Paque)
-  15:00-15:20 : Annotation de corpus arborés avec XCRF : problèmes et solutions envisagées (E. Moreau)
-  15:20-15:45 : pause
-  15:45-16:45 : invited 4 : Probabilistic Programming via Imperatively Defined Factor Graphs (Andrew McCallum)
-  16:45-17:05 : Blockwise Coordinate descent for Elastic Net Penalized CRFs (N. Sokoloska)
-  17:05-17:25 : Implementation efficace des modèles CRFs linéaires (T. Lavergne)

Thursday 18 June 2009

Fouille de Données Complexes (GT EGC-FDC) Complexité liée aux données multiples

fr 

APPEL A PARTICIPATION

Groupe de Travail EGC sur la

Fouille de Données Complexes (GT EGC-FDC)
Complexité liée aux données multiples

http://www.ensieta.fr/e3i2/jfdc/Programme_reunion_18juin2009.htm

Continue reading...

Tuesday 18 December 2007

Soutenance d'habilitation d'Emmanuel Viennet

fr 

Bonjour, j’ai le plaisir de vous inviter à la soutenance de mon habilitation à diriger des recherches intitulée « Contributions aux méthodes d’apprentissage numérique pour la fouille de données structurées » ainsi qu’au pot qui suivra.

La soutenance aura lieu le mardi 18 décembre 2007 à 14h30 au Laboratoire d’Informatique de Paris Nord (LIPN), salle B311.

Accès: http://www-lipn.univ-paris13.fr/planfac/

Cordialement, Emmanuel Viennet.

Wednesday 12 December 2007

Soutenance de thèse de Sujeevan Aseervatham

fr 
Bonjour, j’ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu au LIPN - Université de Paris13, le mercredi 12 décembre à 14h30 en salle B311 de l’Institut Galilée. La soutenance sera suivie d’un pot en salle A201.

Le sujet de la thèse est :
"Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles"

Directeur de thèse : Younès Bennani.


Le jury sera composé des membres suivants :

-- Massih-Reza Amini (Maître de Conférences, LIP6 -- Université de Paris 6)
-- Younès Bennani (Professeur, LIPN -- Université de Paris 13)
-- Christophe Fouqueré (Professeur, LIPN -- Université de Paris 13)
-- Cyril Goutte (Agent de Recherche, CNRC -- Canada)
-- Jean-François Marcotorchino (Directeur Scientifique, Thalès Land & Joint)
-- Alain Rakotomamonjy (Professeur, INSA -- Université de Rouen)
-- Michèle Sebag (Directrice de Recherche, CNRS -- LRI -Paris 11)
-- Emmanuel Viennet (Maître de Conférences, LIPN, Université de Paris 13)

Résumé de la thèse :

Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d’apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d’experts pour établir des règles de traitements sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d’apprentissage.

Les méthodes d’apprentissage supervisé permettent d’extraire automatiquement, à partir d’un échantillon d’apprentissage ("annoté"), des relations entre les données et le problème posé. Ces relations peuvent ensuite être généralisées à l’ensemble d’un corpus. Parmi les algorithmes d’apprentissage, les méthodes à noyaux connaissent un énorme succès depuis ces dernières années. Les noyaux sont des produits scalaires pouvant être perçus comme des fonctions de similarité. Ils peuvent être utilisés avec des algorithmes d’apprentissage linéaires tels que les Séparateurs à Vaste Marge (SVM) pour extraire des relations non-linéaires. En outre, ils permettent d’étendre les algorithmes d’apprentissage numérique aux données de tous types et notamment des types complexes tels que les arbres et les graphes.

Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes :
- Le premier axe porte sur l’étude des problématiques liées au traitement de données textuelles structurées par des approches à base de noyaux. Nous présenterons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d’une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé, lors d’un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44.
- Le second axe porte sur l’étude des concepts latents extraits par des méthodes statistiques telles que l’analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d’une source externe et des concepts statistiques issus de la LSA. Nous montrons qu’un noyau intégrant les deux types de concepts permet d’améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d’extraire des concepts latents permettant d’obtenir une représentation plus fine des documents.

Une grande partie des travaux effectués dans cette thèse ont été menés dans le cadre du projet Infomagic du pôle de compétitivité Cap Digital.

Mots clés : Apprentissage, Noyaux, Séparateurs à Vaste Marge, Catégorisation de texte, Mesure de Similarité Sémantique.


Cordialement, Sujeevan Aseervatham.