LexiQuest
Categorize, Verity K2 Entreprise, Profium SIR, etc. La
catégorisation électronique de contenu est
devenue, en quelques années, un terrain sur lequel
les solutions fourmillent. Un domaine qui, rappelons le,
s'articule généralement autour de deux grandes
orientations technologiques. La première qui fait
la promotion des méthodes d'indexation traditionnelles
(généralement propriétaires) appuie
le processus de classement sur un ensemble de requêtes
pré-définies. Parmi ses supporters, on compte
principalement des acteurs positionnés à
l'origine sur le marché des moteurs recherche -tel
que Lexiquest, Verity ou Hummingbird par exemple.
La seconde mise sur l'association des documents à
un référentiel de meta-données. Un
choix qui fait l'originalité de solutions comme
Profium SIR (Profium) ou Knowledge Index Manager (Mondeca).
Se plaçant dans ce second groupe, Documentum,
éditeur d'une solution de gestion de contenu, vient
tout juste d'annoncer la sortie d'un nouveau module visant
justement à faciliter la mise en oeuvre de la couche
de marquage XML de sa plate-forme.
Un assistant
d'indexation et de catégorisation
Baptisée Content Intelligence Services (CIS),
l'application en question est conçue pour automatiser
la classification des contenus textuels, qu'ils soient
structurés ou non structurés. Concrètement, elle commence
par extraire des
documents
une liste de concepts qu'elle considère comme représentatifs
de ces derniers. "Ce processus fait appel à la solution
IntelliScope (Inso) en vue de retrouver la racine des
mots", détaille Pierre Bernassau, responsable marketing
de la filiale française de l'éditeur. Ensuite intervient
un mécanisme propre à Documentum qui se charge de faire
le rapprochement entre les termes extraits et une taxonomie
pré-établie. Pour finir, le fichier est automatiquement
intégré, ou plus précisément associé, à ce plan de classement
par le biais de meta-données XML.
Si l'utilisateur le désire, une interface d'administration
lui permet d'accéder à la boîte noire afin de choisir
les concepts qui l'intéressent, voire de définir des règles
de génération de meta-données. Une fonction qui
permettrait par exemple de générer automatiquement
un champ XML en fonction du format de fichier en question.
Capable d'accueillir des référentiels de
catégorisation tiers, CIS est également
livré avec une bibliothèque de plans de
catégorisation métier -couvrant pèle
mêle les secteurs financier, industriel, juridique,
informatique, ainsi que les domaines des ressources humaines,
de l'énergie et du marketing.
Un système de génération
automatique de liens
"Ce module qui facilite le travail des
contributeurs tout en leur donnant un cadre de travail
contribue au final à homogénéiser
et à enrichir les meta-données [qui constituent
le socle du plan de catégorisation]", commente
Pierre Bernassau. CIS
dont le prix d'entrée s'élève environ
à 22 000 euros par processeur propose parallèlement
une fonction de création automatique de liens hypertext.
"Elle permet notamment, indique le porte-parole,
de générer un lien vers un document depuis
un mot ou une expression".
|