Bienvenue sur la page personnelle de Jean Decoster.

Je suis actuellement doctorant au centre INRIA Lille Nord-Europe

et participe au projet Mostrare.

  Apprentissage relationnel pour les transformations XML


Contexte

L'objectif du projet Mostrare est de développer des méthodes adaptatives pour les systèmes d'information ou les systèmes à  bases de documents orientés XML. Dans ce cadre, nous développons des méthodes d'apprentissage automatique pour les tâches de classement de documents XML, d'interrogation par requêtes de documents XML et de transformations de documents XML.

L'apprentissage relationnel désigne l'apprentissage de programmes logiques. Il dépasse donc en expressivité les formalismes à  base d'attributs-valeurs, de séquences ou d'arbres. Même si les méthodes d'apprentissage ont alors un surcoût algorithmique non négligeable (certaines opérations deviennent NP-dures), la représentation relationnelle semble adaptée aux documents XML : en plus de l'arbre habituel défini par la relation child, il devient possible d'ajouter d'autres relations entre les noeuds comme ancestor, nextsibling, ... et des contraintes d'égalité ou d'inégalité entre les noeuds. L'apprentissage relationnel s'est d'abord développé dans un cadre symbolique (inductive logic programming) mais connaît aujourd'hui avec l'apparition de méthodes statistiques pour le relationnel (statistical relational learning) un nouvel engouement.


Sujet

L'objectif de cette thèse est l'étude de l'apprentissage relationnel (statistique) pour l'apprentissage de transformations XML.

Une première partie du travail consiste à  étudier les différentes représentations relationnelles possibles des documents XML. Cette étude devra déterminer quels sont les choix de représentations à privilégier pour apprendre des transformations d'arbres XML par des techniques d'apprentissage relationnel. Cette étude sera prolongée au cas de l'apprentissage relationnel statistique.

Une seconde partie du travail consistera à  étudier l'apprentissage relationnel (statistique) dans des applications XML. Mais, comme rappelé ci-avant, l'apprentissage relationnel a un coût algorithmique. Plusieurs pistes de recherche seront abordées. Une première consistera à  un travail sur le choix des représentations et sur l'optimisation des algorithmes d'apprentissage relationnels statistique. Une seconde consistera à  utiliser l'apprentissage relationnel comme un prétraitement permettant de sélectionner les relations pertinentes pour l'application XML considérée. Des méthodes d'apprentissage statistiques pouvant être utilisées ensuite (méthodes à noyaux structurés ou champs de markov aléatoires).

Enfin, les méthodes développées seront appliquées à  des applications XML telles que l'extraction d'informations et le transformation.


Directeur et Co-encadrants

Fabien Torre (Encadrant)
Rémi Gilleron (Directeur de recherche)