Navigation


 

Liens conseillés

Google
Wikipedia
"Compressed Sensing"
"Machine Learning"
Contacts

Choisis en paroles la vérité (Lao-Tseu).

Il ne dépend que de nous de suivre la route qui monte et dviter celle qui descend (Platon)


Apprentissage non-supervisé dans le cadre de la théorie du transport optimal

Collaborations :  Y. Bennani, C. Laclau, Y. Redko

 
 

La théorie du transport optimal a été introduite pour la première fois par Monge pour étudier le problème de l’allocation des ressources. En supposant que nous ayons un ensemble d’usines et un ensemble de mines, l’objectif du transport optimal est de déplacer le minerai des mines vers les usines de manière optimale, c’est-à-dire en minimisant le coût global du transport. La formalisation du problème d’optimisation de Monge a été donné par Kantorovich.  Ce problème admet une solution unique γ∗ , appelée distance de Wasserstein, qui est une métrique sur l’espace des mesures de probabilité. La distance de Wasserstein a été utilisée avec succès dans diverses applications, par exemple : vision par ordinateur, analyse de texture, reconstruction tomographique, adaptation de domaine, apprentissage métrique et clustering. Cette dernière application est d’un intérêt particulier car la distance de Wasserstein est connue pour être une métrique très efficace en raison de sa capacité à prendre en compte la géométrie des données à travers les distances par paires entre les échantillons. 

En collaboration avec Y. Bennani, C. Laclau et I. Redko nous avons abordé les problèmes existants des méthodes de co-clustering décrites ci-dessus en proposant une approche principalement nouvelle qui résout efficacement le problème de co-clustering d’un point de vue qualitatif et informatique et permet la détection automatique du nombre de co-clusters. Nous posons le problème de co-clustering comme la tâche de transporter la mesure empirique définie sur les observations vers la mesure empirique définie sur les caractéristiques des données. L’intuition derrière ce processus est très naturelle au co-clustering et consiste à capturer les associations entre les instances et les caractéristiques de la matrice de données. La solution du problème de transport optimal est donnée par une matrice de couplage doublement stochastique qui peut être considérée comme la distribution de probabilité conjointe approchée des données d’origine. De plus, nous montrons que la matrice de couplage peut être factorisée en trois termes où l’un d’eux reflète la distribution a posteriori des co-clusters de données tandis que les deux autres représentent les distributions approchées des observations et des caractéristiques. Nous utilisons ces distributions approchées pour obtenir les partitions finales. Nous dérivons également une version à noyau de notre méthode qui, contrairement au cas original, est basée sur une métrique de transport optimal définie sur l’espace des fonctions de dissimilarité. D’un point de vue théorique, nous avons justifié notre approche en démontrant que la matrice de couplage peut être vue comme la solution d’un problème d’inférence variationnelle. Cette approche présente plusieurs avantages : l’algorithme de Sinkhorn-Knopp utilisé pour résoudre le problème du transport optimal régularisé a une complexité logarithmique ; le nombre de classes des objets et des variables est détecté automatiquement grâce à l’adaptation d’un algorithme de détection multi-échelle.