Lot 2 : conversion et prétraitements de documents semi structurés

Description

  • Adaptation et Création d’outils spécifiques de conversion
    • HTML, PDF, Word, etc. vers un schéma XML de base

Livraisons effectuées

  • Feuilles XSLT et scripts pour la constitution des corpus IMDB et Wikipédia
  • Scripts pour IMDB (Mostrare)
  • Outil intéractif d'annotation de la base propriétaire XEROX
  • Convertisseur PDF-to-XML pour l'annotation des documents PDF