Apprentissage de
représentations
hiérarchiques de
données
Collaborations : F.
Arandiga, J.-F.
Aujol, A. Cohen,
R. Donat, N. Dyn,
M. Kaaniche, S.
Meignen, A.
Molkaroui, B.
Thai, A. Zakharova.
Dans les
différents
problèmes
existants en analyse de
données le choix
d’une
représentation
appropriée de ces
données
est souvent fondamental
pour résoudre un
problème
donné. Toujours
en considérant
que les données
observées vivent
dans un espace de grande
dimension et que
celles-ci se regroupent
sur des
variétés
régulières
séparées
par des
singularités,
l’objectif est de
proposer des changements
de représentation
qui préservent la
topologie de
données
observées, c’est
à dire
qui détectent
avec précisions
les
variétés
contenant des
singularités. Ces
variétés
singulières une
fois
détectées
permettront
la définition de
"clusters" dans les
données
observées.
D’un point de vue plus
formel cela revient
à changer de
représentation
pour une fonction
régulière
par morceaux telle
que certaines
propriétés
sont
préservées,
par exemple la
localisation des
singularités. Un
exemple typique existe
en analyse
harmonique, car on peut
décomposer une
fonction arbitraire en
une combinaison de
fonctions de base
Un premier exemple d’une
telle
décomposition est
le développement
en série de
Fourier, où les
fonctions de base sont
les
fonctions
trigonométriques.
On peut
représenter alors
la fonction par
ses coefficients a0, a1,
a2, · ·
· . Dans le cas
unidimensionnel,
si la fonction f
présente des
discontinuités,
on utilise plutôt
les bases d’ondelettes
(ψ_n) sont les
dilatées et
translatées
d’une seule fonction ψ).
Introduites au milieu
des années ’80
ont apporté un
cadre fonctionnel
fécond au
développement
et à l’analyse
des
représentations
hiérarchiques.
Toutefois, les
bases d’ondelettes sont
mal adaptées pour
décrire des
fonctions en dimension
supérieure n ≥ 2
qui sont
régulières
en dehors des
singularités
elles aussi
régulières.
Un exemple type sont les
images qui sont des
objets complexes
contenant des
régions
homogènes
séparées
par des contours. Ceci
est dû au
"conflit" entre le
caractère
"diffus-isotrope”
des ondelettes et le
caractère
"concentré-anisotrope”
des singularités.
C’est la
malédiction de la
dimension.
Les
représentations
hiérarchiques
non-linéaires
trouvent des
applications en analyse
de données :
réduction de la
dimension,
visualisation. Celles-ci
sont la
conséquence
directe du fait que ces
représentations
hiérarchiques ont
un nombre
important des valeurs
nulles. On parle ainsi
de la parcimonie de la
représentation.
Une
propriété
toute aussi importante
de ces
représentations
est la stabilité.
Dans les applications
telles que la
compression
et le débruitage,
nous sommes
amenés à
perturber les
coefficients de la
représentation
multi-échelles de
v par
des opérations de
seuillage ou de
quantification.
|