Le séminaire A3 accueille Guillaume Wisniewski du LIP6 pour
parler d’apprentissage dans les espaces structurés et d’applications
à l’étiquetage de séquences et à la transformation automatique de
documents.
De nombreux problèmes d’apprentissage consistent à prédire des
séquences, des arbres ou des graphes. Contrairement aux problèmes de
classification usuels, ces sorties sont structurées : elles se
décomposent en un ensemble d’éléments, dont les étiquettes sont
interdépendantes. L’apprentissage de fonctions utilisant ces
dépendances entre étiquettes durant l’inférence, appelé apprentissage
structuré, est une problématique de l’apprentissage statistique qui
s’est récemment fortement développé.
Une première partie de cette présentation proposera une introduction
rapide aux différentes méthodes d’apprentissage structuré existantes.
Nous y décrirons notamment l’application de ces méthodes à des tâches
d’étiquetage de séquences et de transformation de documents. Cette
dernière tâche est directement motivée par l’extraction de structures
sémantiquement riches (XML par exemple) à partir de données web qui est
une tâche aujourd’hui au cœur de plusieurs problématiques d’accès à
l’information.
Nous nous intéresserons ensuite à deux limites des modèles existants
qui rendent ceux-ci inapplicables à de nombreux problèmes pratiques :
leur complexité élevée et leur expressivité limitée qui ne leur permet
de ne considérer que des dépendances locales. Nous proposons d’aborder
ce problème sous l’angle de la sélection de caractéristiques et
décrivons une méthode d’étiquetage de séquences représentant les
dépendances par des contraintes. Cette représentation des dépendances
permet d’extraire efficacement les dépendances non locales et de les
utiliser en inférence tout en conservant une complexité faible.