Dans le cadre de nos travaux, nous nous intéressons au problème de la classification et de la prévision de données hétérogènes, que nous proposons d’étudier à travers deux approches principales. Dans la première, une nouvelle approche de classification automatique basée sur une technique de la théorie des graphes appelée b-coloration a été mise en place. La b-coloration d’un graphe G est une affectation des couleurs  (classes) aux sommets de G tels que deux sommets adjacents (dissimilaires) ne portent pas la même couleur (coloration propre) et pour chaque classe de couleur il existe au moins un sommet dominant adjacent à toutes les autres couleurs. Les performances de cette approche ont été validées sur différents types de données, à savoir des données benchmark, des images archéologiques (dans le cadre d’un projet européen TArcHNA) et également sur des données de natures variées issues du système d’information hospitalier français (PMSI) (variables classiques comme l’âge ou le sexe, variables symboliques comme l’ensemble des actes médicaux, les diagnostics, etc). L’objectif étant de définir une typologie plus fine des séjours hospitaliers pour remédier aux problèmes associés à la classification existante en groupes homogènes de malades (GHM). Nous avons également développé l’apprentissage incrémental associé à cette approche, ce qui permet à de nouvelles données d’être automatiquement intégrées dans la partition initialement générée sans avoir à relancer la classification globale. Le deuxième apport de notre travail concerne l’analyse de données séquentielles. Nous proposons de combiner la méthode de classification précédente avec les modèles de mélange markovien, afin d’obtenir une partition de séquences temporelles en groupes homogènes et significatifs. Le modèle obtenu assure une bonne interprétation des classes construites et permet d’autre part d’estimer l’évolution des séquences d’une classe donnée. Se basant sur cette approche, nous avons cherché à définir une typologie des trajectoires patient (succession de séjours hospitaliers d’un même patient) afin de prévoir de manière statistique les caractéristiques du prochain séjour d’un patient arrivant dans un établissement de soins. La méthodologie globale offre ainsi un environnement d’aide à la décision pour le suivi et la maîtrise de l’organisation du système des soins.  

Finalement, des travaux actuels seront également introduits pour (1) l’étude de l’apport des techniques de coloration de graphes pour la segmentation des cartes topologiques de Kohonen (SOM), (2) la combinaison de différentes partitions (consensus de classification ou clustering ensemble). Ces partitions peuvent être obtenues sur une ou plusieurs sources de données et (3) la sélection de variables caractéristiques de classes d’une partition pour expliquer un phénomène donné qui peut être représenté par une ou plusieurs variables « cible ».