From Projet ATASH

Main: HomePage

Projet ATASH

Le projet ATASH est un projet ANR labellisé lors de la campagne 2005.

Partenaires

Introduction

La maîtrise de l’hétérogénéité des descriptions et des formats liée à la diversité des sources d’information est au coeur de l’accès au contenu informationnel et du développement de services pour le traitement et l’échange de contenu. Un des points clé de cette maîtrise est la connaissance des relations de correspondance entre les différents schémas, modèles de description ou structures logiques. Cette connaissance obtenue le plus souvent manuellement est actuellement un goulot d'étranglement pour les échanges dans les systèmes d'information hétérogènes et répartis. L’automatisation de ce processus de transformation de documents semi structurés est devenu un enjeu essentiel pour l’exploitation de contenu.

Objectifs de recherche

Le projet attaque le problème de l’hétérogénéité sous l’angle de l’apprentissage automatique des correspondances entre formats et schémas de documents semi-structurés. Un ensemble de méthodes issues de l’apprentissage seront développées pour traiter les différents aspects du problème. Elles serviront à construire des composants génériques capables de répondre aux besoins liés aux transformations. Ces outils seront testés sur une gamme de problèmes représentatifs issus de différents domaines (systèmes d’information répartis, recherche d’information, Web sémantique,…). Un prototype sera développé pour le traitement complet d’une application cible au coeur de métier de XRCE : la conversion de documents d’entreprises (Word, PDF, etc) vers un format médiateur XML. Le projet s’attachera aussi au développement de ressources, notamment des corpus de documents, permettant l’évaluation des techniques pour des applications représentatives et de protocoles de tests et de mesures d’évaluation. L’approche développée est « centrée documents », à ce titre nous considérons en premier lieu les problèmes d’hétérogénéités concernant des applications dans les domaines de la recherche d’information, du Web et des documents d’entreprise.

Domaine

Thématique réseaux d’information et de connaissances, l’axe 2.3 « Accès, organisation et traitement des données et des connaissances, Web sémantique ».

Objectifs industriels

L’objectif est de disposer d’une technologie permettant la transformation de documents semi structurés validée sur une large gamme de problématique. L’objectif interne à XRCE est la mise au point d’une chaîne complète de traitement pour la conversion de documents d’entreprise. Le marché visé est celui de la gestion du contenu. Il cible une large gamme d’applications identifiées dans de nombreux secteurs industriels.

Partenaires

Le partenariat est basé sur 2 équipes académiques et une équipe industrielle R&D dont les spécialités sont :

Les équipes ont chacune développé des technologies d’apprentissage pour des problèmes spécifiques de restructuration et sont véritablement pionnières dans le monde sur le sujet. XRCE fournit l’application cible du projet.

Retombées scientifiques

Retombées technologiques

Organisation

Les trois partenaires interviennent à part égale. Le projet est composé de 5 lots : acquisition de corpus, outils de prétraitements, théorie et algorithmes pour l’apprentissage de transformations, prototypage, tests et évaluation. Le projet sur 36 mois est conçu en 2 phases : 24 mois pour livrer une première version du prototype et des modules logiciels, 12 mois pour l’évaluation, la remise en cause des modèles, version finale du prototype et le test sur l’application cible.

Dates

Retrieved from http://www-connex.lip6.fr/~denoyer/ATASH_public/pmwiki.php?n=Main.HomePage
Page last modified on September 15, 2008, at 12:13 PM