Apprentissage
non-supervisé
dans le cadre de la
théorie du
transport optimal
Collaborations :
Y. Bennani, C. Laclau,
Y. Redko
La théorie
du transport optimal a
été
introduite pour la
première fois par
Monge pour
étudier le
problème de
l’allocation
des ressources. En
supposant que nous ayons
un ensemble d’usines et
un ensemble de mines,
l’objectif du transport
optimal est de
déplacer le
minerai des mines vers
les usines de
manière optimale,
c’est-à-dire en
minimisant le coût
global
du transport.
La formalisation du
problème
d’optimisation de Monge
a été
donné par
Kantorovich. Ce
problème admet
une solution unique γ∗
, appelée
distance de Wasserstein,
qui est une
métrique sur
l’espace des mesures
de probabilité.
La distance de
Wasserstein a
été
utilisée avec
succès dans
diverses applications,
par exemple : vision par
ordinateur, analyse de
texture, reconstruction
tomographique,
adaptation de domaine,
apprentissage
métrique et
clustering. Cette
dernière
application est d’un
intérêt
particulier car la
distance de Wasserstein
est connue pour
être une
métrique
très efficace en
raison de sa
capacité à
prendre en compte la
géométrie
des données
à travers les
distances
par paires entre les
échantillons.
En collaboration
avec Y. Bennani, C.
Laclau et I. Redko nous
avons abordé les
problèmes
existants des
méthodes
de co-clustering
décrites
ci-dessus en proposant
une approche
principalement nouvelle
qui résout
efficacement le
problème
de co-clustering d’un
point de vue qualitatif
et informatique et
permet la
détection
automatique du nombre de
co-clusters.
Nous posons le
problème de
co-clustering comme la
tâche de
transporter la mesure
empirique définie
sur les observations
vers la mesure empirique
définie sur les
caractéristiques
des données.
L’intuition
derrière ce
processus est
très naturelle au
co-clustering et
consiste à
capturer les
associations entre les
instances et les
caractéristiques
de la matrice de
données. La
solution du
problème de
transport optimal est
donnée par une
matrice de couplage
doublement stochastique
qui peut être
considérée
comme la distribution de
probabilité
conjointe
approchée des
données
d’origine. De plus, nous
montrons que la
matrice de couplage peut
être
factorisée en
trois termes où
l’un d’eux
reflète la
distribution a
posteriori des
co-clusters de
données tandis
que les deux autres
représentent les
distributions
approchées des
observations et des
caractéristiques.
Nous
utilisons ces
distributions
approchées pour
obtenir les partitions
finales. Nous
dérivons
également une
version à noyau
de
notre méthode
qui, contrairement au
cas original, est
basée sur une
métrique de
transport optimal
définie sur
l’espace des
fonctions de
dissimilarité.
D’un point de vue
théorique, nous
avons justifié
notre approche en
démontrant que la
matrice de couplage peut
être
vue comme la solution
d’un problème
d’inférence
variationnelle. Cette
approche présente
plusieurs avantages :
l’algorithme
de Sinkhorn-Knopp
utilisé pour
résoudre le
problème du
transport optimal
régularisé
a une complexité
logarithmique ;
le nombre de classes des
objets et des variables
est
détecté
automatiquement
grâce à
l’adaptation d’un
algorithme de
détection
multi-échelle.
|