Lot 1 : Constitution de Corpus

Description

  • Réunir des corpus de documents semi structurés issus de différentes classes d’application (BD, documents XML, documents d’entreprises, exemple d’ontologies).
  • Création de ressources documentaires au sein de XRCE.

Liste des livraisons effectuées

Corpus MovieDB

Corpus pour la conversion de données XML syntaxiques vers des données XML sémantiques.

Corpus Wikipedia

Corpus de documents issus de Wikipedia convertis en XML (corpus utilisé pour la compétition INEX)

Fond documentaire: The Xerox-ISI corpus

The ISI corpus contains two sets of XML documents. The first, LOGICAL set is the logical XML documents, produced from PDF files. The second, ANNOTATED set is the semantic XML documents, obtained by (manual) annotation of logical XML documents.

Two sets contain 40 files each and are aligned by names. Any file in the ANNOTATED set (for ex., ann.2013.xml) is a file (2013.xml) from the LOGICAL set, with each element being enriched with segmentic-type attribute. The element label set: title, author, location, organisation, reference, Unknown.