15/10/01
RDF
deviendra t-il la couche sémantique du Web?
Comment faire en sorte que
les données non-structurées (ou texte brut)
soient comprises par les applications de gestion de contenu?
Derrière cette question réside la problématique
de la catégorisation des informations... dont la
mise en oeuvre conditionne les modes de recherche contextualisés.
Un enjeu qui devient de plus en plus critique étant
donné les masses de documents électroniques
en croissance constante, que ce soit sur le Web ou sur
les réseaux internes d'entreprise. Sur ce sujet,
Tim Berners-Lee en est persuadé, ce sont bien les
spécifications RDF (Ressource Description Framework)
qui feront entrer les technologies dans l'ère du
Web sémantique. La position du directeur du World
Wide Web Consortium (W3C)
parait de bonne guerre au vue de son implication dans
le projet. L'organisme de certification a en effet mis
en place un groupe de travail pour plancher sur le nouveau
format.
Comment
structurer les données non-structurées
S'appuyant
sur le langage de description XML (eXtended Markup Langage),
le RDF propose un vocabulaire (des balises) permettant
de définir des meta données en vue de préciser
les caractéristiques d'un texte. Au sein d'un document,
ces informations
ont pour principal objectif
de typer les termes ou expressions -en associant par exemple
la balise "couleur" au terme "bleu".
Autre
fonction offerte: la possibilité de décrire
un fichier de meta données extérieur au fichier
texte principal. Celui-ci pourra par exemple contenir
les balises traditionnelles: titre, sujet, auteur, mots
clés, etc.
Complétant cette première couche, des "triplets"
se chargent d'associer les meta données définies
en amont (par groupe de trois). Une méthode qui
assura par exemple la définition d'une chaîne signifiante
"articles"/ "possèdent"/ "couleurs".
Objectif affiché: décrire les relations
entre meta données sous forme de graphes complexes
(jouant le rôle de thésaurus) afin de les
catégoriser.
Déjà
plusieurs projets en production
"RDF
est comparable à XML, dans la mesure où
il cerne un cadre pour la définition de vocabulaires
de structuration spécifiques à des problématiques
ou des métiers particuliers", commente Eric
Van der List, fondateur de Xmlfr.org.
Pour l'heure, quelques initiatives intègrent d'ores
et déjà cette nouvelle dimension. Parmi
elles, on compte notamment RSS (RDF Site Summary). Lancé
par Netscape puis repris ensuite par un groupe de développeurs
indépendants (dont fait justement parti Eric Van
der List), ce projet, qui est mis en oeuvre par le site
XMLhack,
s'appuie sur RDF pour définir un format facilitant
la gestion des pages Web par les agrégateurs de
contenu - notamment autour des tâches de recherche.
Notez que cette application se base elle-même sur
celle du Dublin
Core, dont l'objectif est de fournir une syntaxe de
meta données adaptée aux documents HTML.
Dans le domaine des solutions de gestion de contenu, le
finlandais Profium est l'un des rares éditeurs
à adosser entièrement sa solution de catégorisation
sur RDF. "Reposant sur XML, RDF devrait se généraliser"
assure Martyn Horner, membre pour Profium du groupe du
W3C charger de conduire la spécification du même
nom à la normalisation. "D'ici là,
le principal enjeu consiste à concevoir des schémas
spécifiques à chaque problématique
métier".
Dans
l'attente de la généralisation
"Aujourd'hui, le RDF est une technologie mûre"
lance pour sa part Eric Van der List. "Malheureusement,
je constate que ce format est réputé complexe,
ce qui est faux". Sur les causes de cet incompréhension,
le gourou français de XML est claire: "le
W3C ne met pas en oeuvre les actions marketing nécessaires".
Sans compter que, sur le créneau du Web sémantique,
RDF n'est pas tout seul. Son principal concurrent étant
sans doute Topickmap.
Conçu à l'origine à partir du SGML,
ce projet offre depuis peu une version compatible XML
(et baptisée XTM pour XML Topic Maps). "Il
est vrai que les deux projets (RDF et XTM) travaillent
aujourd'hui à la convergence de leurs spécifications
respectives", reconnaît Eric Van der List.
"Cependant, même si les mises en applications
de XTM ne sont pas légion, il reste un rival sérieux,
notamment de par sa certification ISO." Partant d'une
méthodologie différente, l'annuaire UDDI
propose lui aussi une architecture de Web sémantique.
"Il serait dommage que de telles solutions, qui réponde
sensiblement à la même problématique,
cohabitent sur le Web", soutient pour finir Eric
Van der List.
|