Projet ATASH

Le projet ATASH est un projet ANR labellisé lors de la campagne 2005.

Partenaires

  • LIFL – MOSTRARE (Université Lille 3 - INRIA)
  • LIP6 (Université Paris 6)
  • XEROX (XRCE - Centre de recherche de Grenoble)

Introduction

La maîtrise de l’hétérogénéité des descriptions et des formats liée à la diversité des sources d’information est au coeur de l’accès au contenu informationnel et du développement de services pour le traitement et l’échange de contenu. Un des points clé de cette maîtrise est la connaissance des relations de correspondance entre les différents schémas, modèles de description ou structures logiques. Cette connaissance obtenue le plus souvent manuellement est actuellement un goulot d'étranglement pour les échanges dans les systèmes d'information hétérogènes et répartis. L’automatisation de ce processus de transformation de documents semi structurés est devenu un enjeu essentiel pour l’exploitation de contenu.

Objectifs de recherche

Le projet attaque le problème de l’hétérogénéité sous l’angle de l’apprentissage automatique des correspondances entre formats et schémas de documents semi-structurés. Un ensemble de méthodes issues de l’apprentissage seront développées pour traiter les différents aspects du problème. Elles serviront à construire des composants génériques capables de répondre aux besoins liés aux transformations. Ces outils seront testés sur une gamme de problèmes représentatifs issus de différents domaines (systèmes d’information répartis, recherche d’information, Web sémantique,…). Un prototype sera développé pour le traitement complet d’une application cible au coeur de métier de XRCE : la conversion de documents d’entreprises (Word, PDF, etc) vers un format médiateur XML. Le projet s’attachera aussi au développement de ressources, notamment des corpus de documents, permettant l’évaluation des techniques pour des applications représentatives et de protocoles de tests et de mesures d’évaluation. L’approche développée est « centrée documents », à ce titre nous considérons en premier lieu les problèmes d’hétérogénéités concernant des applications dans les domaines de la recherche d’information, du Web et des documents d’entreprise.

Domaine

Thématique réseaux d’information et de connaissances, l’axe 2.3 « Accès, organisation et traitement des données et des connaissances, Web sémantique ».

  • Documents : gestion et interrogation, fusion de données hétérogènes, effacement de la rupture entre document numérique et papier
  • Bases de données image, texte, entrepôts thématiques, recherche d’information, fouille de données, de texte, apprentissage

Objectifs industriels

L’objectif est de disposer d’une technologie permettant la transformation de documents semi structurés validée sur une large gamme de problématique. L’objectif interne à XRCE est la mise au point d’une chaîne complète de traitement pour la conversion de documents d’entreprise. Le marché visé est celui de la gestion du contenu. Il cible une large gamme d’applications identifiées dans de nombreux secteurs industriels.

Partenaires

Le partenariat est basé sur 2 équipes académiques et une équipe industrielle R&D dont les spécialités sont :

  • LIFL – Lille 3 : grammaires d’arbres, inférence grammaticale sur données arborescentes, wrappers, inférence de transformations à partir d’exemples.
  • LIP6 – Paris 6 : apprentissage statistique, recherche d’information, fouille de texte et transformation sur des documents XML
  • XRCE – Xerox : traitement de documents structurés, grammaires formelles et l’inférence grammaticale.

Les équipes ont chacune développé des technologies d’apprentissage pour des problèmes spécifiques de restructuration et sont véritablement pionnières dans le monde sur le sujet. XRCE fournit l’application cible du projet.

Retombées scientifiques

  • Ensemble de méthodes permettant la modélisation, l’apprentissage, l’inférence et la transformation de documents semi structurés
  • Corpus issus de différents domaines d’application permettant l’évaluation dés méthodes.

Retombées technologiques

  • Bibliothèque d’outils pour la transformation de documents.
  • Réalisation d’une chaîne complète de transformations dans le domaine des documents d’entreprise.

Organisation

Les trois partenaires interviennent à part égale. Le projet est composé de 5 lots : acquisition de corpus, outils de prétraitements, théorie et algorithmes pour l’apprentissage de transformations, prototypage, tests et évaluation. Le projet sur 36 mois est conçu en 2 phases : 24 mois pour livrer une première version du prototype et des modules logiciels, 12 mois pour l’évaluation, la remise en cause des modèles, version finale du prototype et le test sur l’application cible.

Dates

  • Début officiel Janvier 2006
  • début effectif T0 = Juillet 2006