Activités scientifiques
Domaine et environement

La principale tâche de l’appentissage automatique pourrait être définie comme la construction des
modèles plus simple de la réalité afin de mieux la comprendre et/ou résoudre un problème donné.
Le mot clé de mes activités de recherche est la “l’apprentissage de représentations” .
Il s’agit pour un problème qui traite des donnéees en très grande dimension de pouvoir construire
une nouvelle réprésentation caracterisée par un nombre nombre réduit de paramètres, on parle
aussi de la parcimonie, ceux-ci étant porteurs de l’information pertinente. Afin de motiver une
telle étude et d’expliquer ses résultats, il convient tout d’abord de nous situer dans le contexte
général du traitement des données de grande dimension et de son évolution récente.


Les dernières décennies sont marquées par une évolution très nette des méthodes mathématiques utilisées pour résoudre ces problèmes que l’on peut résumer ainsi : - d’une part les opérations linéaires qui traitent les données de façon uniforme ont fait place à des opérations nonlinéaires plus performantes et qui traitent les données de façon adaptative. Le besoin d’adaptativité en traitement de données est évident d’un point de vue intuitif : lorsque l’on regarde une visualisation d’une base de données numériques, on constate que la concentration de données varie de façon régulière dans les zones homogènes correspondant aux différents clusters, et présente des courbes de discontinuité associées aux contours délimitant ces clusters. Une bonne méthode de traitement devra d’une part intégrer ce caractère globalement inhomogène de données par un traitement adapté des zones homogènes et des zones inhomogènes et d’autre part proposer des solutions en très grande dimension. Les problèmes de classification supervisé ou non-supervisé nécessitent d’approcher des fonctions dans des espaces de très grande dimension. Eviter la malédiction de la dimensionnalité ouvre de nombreuses questions en statistiques, probabilités, analyse harmonique et géométrie.


Eviter la malédiction de la dimensionnalité ouvre de nombreuses questions en statistiques, probabilités, analyse harmonique et géométrie. La malédiction de la dimensionalité, même pour des données structurées sous la forme de vecteurs dans l’espace réel de dimension d, rend très difficile l’approximation ou la classification de ces données. Pour comprendre, cela vient du fait que le volume est une fonction exponentielle de la dimension. En effet, en dimension 1, avec 10 points, on échantillonne un segment de taille 1 avec des intervalles de 1/10 . Dans un espace de dimension d, il faudrait (10)^2d points pour échantillonner un cube de largeur 1 avec des points dont la distance est 1/(10^2d) . A titre d’exemple dans le cas des mesures biochimiques ou des données marketing d = 10^6 à cause de cette malédiction, la distance euclidienne perd sa capacité de discrimination. En théorie d’approximation conventionnelle la construction des opérateurs d’approximation ou de discrimination est basée sur la notion de voisinage. En très grande dimension, tous les éventuels voisins d’un point d’intérêt sont très éloignés. Il est donc nécessaire de penser à des opérateurs d’approximations non-conventionnels, tels que les réseaux de neurones qui sont des opérateurs d’approximations universels. En particuliers l’utilisation des réseaux 4 de neurones convolutionels a permit l’obtention des résultats spectaculaires pour l’analyse d’images, la compréhension de la parole, l’analyse du langage naturels et de nombreux autres problèmes.


Depuis septembre 2014, l’intérêt de mes recherches porte essentiellement sur les applications des représentations parcimonieuses au traitement des données de très grandes dimension en collaboration étroite avec les membres du pôle ADA de l’équipe A3 du LIPN, que j’ai rejointe depuis septembre 2015, et plus particulièrement avec Y. Bennani, G. Cabanes et J. Sublime. Ainsi, ma recherche se situe à l’intersection de l’Informatique, des Mathématiques Appliquées et des Sciences de l’Ingénieur et porte essentiellement sur les domaines ci-dessous décrits par ordre antéchronologique :

1. approches quantiques en apprentissage non-supervisé de représentations de données en très grande dimension.

2. clustering à partir de données multi-sources et hétérogènes qui inclut entre autre mes travaux sur le clustering collaboratif et multi-vue.

3. la modélisation de données évolutives en particulier les problèmes de l’échantillonnage irrégulier des fonctions de plusieurs variables ayant comme spectre un ensemble compact inconnu dont seulement la dimension est connue.

4. apprentissage non-supervisé dans le cadre de la théorie du transport optimal

5. apprentisssage de représentations hiérarchiques de données en très grande dimension se situant sur des variétés régulières par morceaux.

6. apprentisssage de représentations de données en très grande dimension et leurs applications, à savoir : la segmentation/compression/clustering et le débruitage/détection des "outliers". Par la suite je souhaite mentionner les éléments de réponse les plus importants que j’ai pu apporter au développement de ces axes de recherches.