12/07/2001
Comment
l'Université de Marne la Vallée gère sa base documentaire
avec XML
Alors
qu'Internet a été investi dès son
lancement par le monde universitaire, les évolutions
des normes du réseau n'ont par la suite pas toujours
été suivies par les chercheurs et
enseignants. Force est de remarquer néanmoins l'émergence
récente de plusieurs programmes lancés par
divers rectorats, utilisant les derniers standards Web.
Aux Etats-Unis, c'est notamment le cas de l'Université
de l'Indiana et de l'Université
Syracus (New York). En France, l'initiative revient
à l'Université
de Marne-la-Vallée avec une première
expérience de grande ampleur autour du Web sémantique.
"Le projet Pelleas a été lancé
en 1997 suite à une demande conjointe de notre
président et de la Direction de l'Information Scientifique
et Technique du ministère de l'Education
Nationale", explique Christian Lupovici, directeur
du Service
commun de la Documentation de l'université. Au total,
l'objectif fixé est alors de réaliser une bibliothèque
électronique propre à l'établissement,
mais également de jouer le rôle de site pilote
en vue d'un déploiement éventuel sur d'autres
campus.
XML :
un choix considéré comme naturel
Prenant acte des différents formats documentaires
généralement utilisés en 1997 (HTML,
PDF, etc.), le premier cahier des charges du projet recommande
l'utilisation de SGML
(Standard Generalized Markup Language), le langage historique
pour gérer des documentations lourdes. "Un
visualiseur propriétaire était néanmoins
nécessaire à tout accès client",
rappelle Christian Lupovici. Suit une période de
deux ans, lors de laquelle le ministère effectue
un travail de vérification des pré-requis
techniques de la proposition, puis de validation des objectifs
cadres. "Ce laps de temps a permis aux spécifications
d'évoluer -et notamment de prendre en compte l'émergence
de la technologie XML", commente le responsable du
programme. A l'instar de SGML, l'avantage de XML (eXtended
Markup Language) réside dans ses qualités
d'ouverture. "Cette différence est particulièrement
perceptible concernant l'interfaçage", insiste
t-on à l'Université de Marne-la-Vallée.
Sans nécessiter de pilote propriétaire,
XML peut recourir à des feuilles de style particulières
(XSLT) pour assurer le mode de publication des données.
Au delà de la nécessité d'un langage
de marquage, les objectifs du projet imposaient la couverture
de l'ensemble de la chaîne de traitement des documents
universitaires : depuis l'indexation, en passant
par le stockage et la diffusion. Afin d'accompagner la
définition des spécifications techniques,
ainsi que les phases de développement et de déploiement,
l'université fait appel à Jouve
: une société de services spécialisée
dans le traitement de l'information électronique
et papier.
Ex Libris
marié à d'autres modules sur mesures
"Après
avoir comparé différentes solutions disponibles
sur le marché, nous avons finalement recommandé
le système de base de données documentaire
Ex Libris (Cadic)",
précise Patrick Kalifa, responsable du suivi du
projet Pelleas chez Jouve. Choisi comme socle du système
pour sa souplesse, ce produit associe une base de données
à une interface de programmation d'applications
(API). "Ce qui nous a permis d'effectuer aisément
les développements complémentaires qui s'imposaient",
précise le porte-parole.
Plusieurs fonctions ont notamment été ajoutées
par le prestataire. En amont figure la brique d'acquisition
des données. Celle-ci s'appuie sur des DTD (Document
Type
Definition)
ou des schémas XML normalisés (EBIND, TEI, etc.)
pour reprendre des documents XML existants et leur attribuer
un typage (titre1, titre2, chiffre, etc.) propre au monde
de la gestion documentaire. "Ici, il s'agit par exemple
de manuels universitaires, de revues spécialisées,
ou encore de thèses et autres mémoires de recherche",
pointe Christian Lupovici. "Notez que des DTD différentes
peuvent être utilisées en fonction des contextes :
EAD pour l'archivage, MathML dans le domaine des mathématiques,
TCI (Text and Coding Initiative) dans celui des sciences
humaines et sociales, etc." Qu'en est-il des fichiers
non textuels (image, PDF, son, etc.) ? "Leurs
meta-données sont généralement extraites
automatiquement, puis encapsulées en XML au format
Dublin
Core -un dérivé du fameux RDF",
détaille Patrick Kalifa.
Un lancement
prévu pour septembre 2002
En partant de scripts livrés avec Ex Libris, Jouve
a également mise en place les interfaces finales
de la plate-forme Pelleas. En partie générées
en PHP, celles-ci font intervenir un moteur XSLT assurant
la transformation au format HTML des documents XML et
autres tables navigationnelles stockés dans la
base Cadic. Associée aux fonctions de gestion des
droits d'Ex Libris ainsi qu'au moteur de recherche d'Hummingbird,
la solution propose au final un système d'accès
à l'ensemble de la base Pelleas.
"Via un protocole spécifique à l'univers
des bibliothèques (Z3950), il est également
possible d'interroger nos bases de prêts relatives
aux documents papier", confie Christian Lupovici.
C'est également sur cette technologie que l'université
prévoit de s'appuyer pour
se connecter aux applications d'autres universités.
Pour l'heure, la plate-forme de Marne-La-Vallée,
qui tourne actuellement sur 2 serveurs HP 9000, est en
pleine phase de tests. Le lancement officiel est prévu
pour septembre 2002.
|