Fouille de données

De Bioinformatique théorique, Fouille de données et Optimisation stochastique.
Aller à : Navigation, rechercher
Thématique Fouille de données (et connaissances)

La thématique Fouille de données (et connaissances), portée par Pierre Gançarski, se focalise sur des méthodes d'apprentissage automatique et d'extraction de connaissances à partir de données complexes (ex : images, bases de données, etc.). Le but de ces recherches est double : il consiste d'une part, à étudier et développer des méthodes d'extraction de connaissances, et d'autre part, à appliquer ces méthodes à l'analyse de bases de données et d'images numériques. Les approches étudiées et développées sont basées sur des méthodes d'apprentissage, de classification non-supervisée et de fouille de données relationnelles. Les principaux domaines d'applications sont les images de télédétection ou médicales, les données biochimiques, ou encore la gestion de données client.

Cette thématique s'articule autour de différents aspects :

Sommaire


Principales personnes travaillant dans la thématique

Permanents

Post-doctorants

Doctorants

Les anciens doctorants

Opérations

FODOMUST: Fouille de données multistratégies

Les travaux que nous menons en fouille de données multistratégie se déroulent suivant trois grands axes:

Le processus global de classification non supervisé collaborative multi-stratégies intégrant ces trois aspects a implanté par la méthode Samarah (Système d'Apprentissage Multi-Agents de Raffinement Automatique de Hiérarchies).

Ces travaux sont réalisés en grande partie en collaboration avec le Laboratoire Image et Ville (UMR CNRS/UDS 7011) et ont été validés dans le cadre de la télédétection. Ainsi, le domaine d'application principal de nos méthodes est la classification automatique d'images de télédétection et plus largement la classification d'images.

Parallèlement, plus récemment, nous nous sommes intéressés à la classification de bases de données multimédias.

Tous ces travaux ont donné lieu à plusieurs réalisations logicielles.

FODOREL : Fouille de données relationnelles

La fouille de données relationnelles concerne l'extraction de connaissances à partir de bases de données (relationnelles, bien sûr), et plus généralement l'apprentissage à partir de données qui ne se représentent pas naturellement sous la forme d'une seule table attribut-valeur, par exemple des réactions chimiques.

Nos domaines d'application comprennent :

Nos thèmes de travail sont :

FODOST : Fouille de données structurées

La fouille de données structurées concerne l'extraction de connaissances à partir de données complexes fortement structurées de façon spatiale, sémantique et/ou temporelle. Il s'agit d'adapter et de développer des méthodes exploitant les liens entre les objets à classifier.

Ces recherches s'attachent à l'exploitation de données multisource, multivue, multiresolution et multitemporelles. Cette dernière est principalement appliquée au domaine de la télédétection, riche de données images représentant différentes descriptions d'une même zone géographique : à différentes, résolutions, par différents satellites et à différents instants.

Par exemple, les deux sauts technologiques que sont d'une part l'apparition de la très haute résolution spatiale (THR) en imagerie satellitaire et d'autre part la disponibilité croissante de séries temporelles de telles images, nous ont amené à proposer de nouvelles approches pour l'analyse multi-source d'images satellites, l'analyse multi-résolution d'images de télédétection en milieu urbain (Thèse de Camille Kurtz, débutée en octobre 2009) et pour l'analyse temporelle des comportements des objets dans des séries d'images (Thèse de François Petitjean débutée en octobre 2009, Thèse de Germain Forestier débutée en octobre 2007).

Enfin, la précision des informations présentent dans les images à très haute résolution permet d'envisager l'extraction d'ensembles d'objets structurés spatialement de façon plus ou moins complexe. Ce problème peut trouver une solution en modélisant l'organisation spatiale des objets recherchés sous la forme de graphe de contraintes. La vérification de la satisfaction des contraintes spatiales imposées par le modèle peut se faire en se ramenant à un problème de satisfaction de contraintes (CSP). Différents algorithmes basés sur la vérification de la consistance d'un graphe (consistance d'arc ou de chemin) sont alors mis en œuvre dans ce cadre. De premiers résultats permettant d'extraire les zones de lotissement ont été obtenus.

FODOGECO : Fouille de Données et Gestion des Connaissances

L'augmentation de la disponibilité des images satellite à haute résolution spatiale est une occasion pour caractériser et identifier des objets urbains. Des méthodes d'analyse d’images à l'aide d'approches orientées objet basées sur l'utilisation des connaissances du domaine, sont nécessaires pour classifier les données. Un problème important dans ces approches est l’exploitation et la formalisation des connaissances domaine. L'utilisation d’ontologies formelles semble un choix judicieux pour traiter ces questions.

Par conséquent, le but de ces travaux est de définir une ontologie thématique pour l’étiquetage automatique des régions.

Il s'agit ici de développer à partir de documents thématique une ontologie du domaine afin d'aider un géographe dans son activité d'interprétation d'images provenant de satellites divers et variés.

Les concepts qu'utilisent les experts sont fortement dépendants à la fois des outils de traitement d'images existants (ou dont on peut deviner qu'ils existeront dans un futur proche) mais aussi et surtout de l'information intrinsèque contenue dans ces images. En effet tout n'est pas interprétable avec certitude dans la détection d'objets dans les images: sans données externes, on ne peut savoir de façon directe si un bloc d'habitation a 2, 3 ou 4 étages. Une ontologie devrait mieux permettre de décrire l'interprétation d'une image satellite en cours d'étude. Elle devrait permettre de gérer automatiquement un certain nombre de contraintes ou de règles portant sur des proximités possibles ou impossibles entre des objets de type X et des objets de type Y, d’accélérer le processus et finalement d'assurer ainsi une meilleure cohérence des résultats. Même si dans le cas d'images urbaines, la combinatoire des couples (objet X, objet Y) se trouvant à côté l'un de l'autre est grande, les contraintes négatives (décrivant des impossibilités) seront très utiles.

La construction de cette ontologie passe par un procédé d'extraction des connaissances à partir de textes de ce domaine. Cette phase va fournir les éléments essentiels pour construire l’ontologie : la liste des concepts et des relations sémantiques du domaine.

La phase suivante concerne la normalisation et la formalisation des connaissances : c'est là que vont s'opérer les choix de représentations liés à l'exploitation future de l'ontologie. Cette phase sera faite en liaison avec les experts en interprétation des images urbaines (géographes du LIVE et chercheurs du LSIIT).

En effet, l'ontologie à construire est à la croisée de deux ontologies : une ontologie du domaine urbain et une ontologie des outils de reconnaissance. L’ontologie complète comportera donc des concepts liés au domaine urbain (rue, blocs…), des concepts liés aux images (spectre, résolution…) et des concepts liés aux algorithmes de traitement et de reconnaissance existants. La représentation explicite des relations possibles entre ces différents types de concepts est une partie cruciale de cette ontologie. Il s’agit de stipuler que tel algorithme est adapté pour reconnaitre tel objet dans une image ayant telles caractéristiques. Ceci devrait permettre de compléter la reconnaissance d’objets incomplètement reconnus, par exemple, des maisons accolées ou des rangées d’arbres.

Nous en profiterons pour élaborer des scénarios d'usage de l'ontologie pour préciser sa fonction dans le processus d'interprétation des images et dans l'exploitation des résultats. Au niveau du formalisme de définition de l’ontologie, des extensions de OWL (standard fondé sur les logiques de description) seront étudiées pour prendre en compte des informations quantitatives (proximité, taille…) mais aussi qualitatives (degré de confiance et d’appartenance).

Principaux projet et collaborations

Projets en cours


Projets plus anciens

=

Publications en revues internationales

Autres communications scientifiques

Bioinformatique théorique, Fouille de données et Optimisation stochastique
Affichages
Actions
L'équipe BFO
Thématiques
Recherche
Réalisations logicielles
Outils personnels