21/06/01
Les
moteurs de recherche : un marché encore peu structuré
(Mis
à jour le 3/12/2001) Sur le marché des
solutions de recherche, les éditeurs fourmillent. Chacun
rivalisant d'imagination pour proposer des outils capables
de répondre à des problématiques aussi bien Internet,
qu'intranet et extranet. En revanche, très peu de fournisseurs
choisissent pour l'heure de proposer des produits spécialisés
pour des métiers particuliers. La plupart se contentant
de livrer de grosses machines, certes adaptables au
cas par cas.
Un livre blanc publié récemment par l'agence Web FRA
distingue deux grandes catégories de produits :
les outils de recherche sémantiques et les moteurs
statistiques - une typologie que confirme notre propre
étude de marché.
Des recherches intégrant le sens du langage
Au-delà
du mode plein texte (recherche de documents comportant
les termes d'une demande), la recherche sémantique
intègre le sens du langage. En s'appuyant sur
des dictionnaires plus ou moins spécialisés, cette méthode
est notamment capable de traiter la synonymie. Parmi
les éditeurs que nous avons étudiés, les outils de Verity,
d'Hummingbird et d'Arisem figurent notamment dans ce
premier domaine. "Avec
ce type de solutions, une société peut personnaliser
son outil de recherche en lui adjoignant ses propres
thésaurus", précise Jean-Louis Bénard, directeur général
de FRA.
S'adosser à des dictionnaires spécialisés
C'est
justement pour cette stratégie qu'ont opté Pechiney
et Leroy Merlin (voir nos articles sur le sujet), respectivement
pour un intranet documentaire et pour un site Web. Selon
eux, coupler un mode de recherche en langage naturel
à des dictionnaires spécialisés est fortement recommandé
pour fournir des réponses pertinentes sur des
domaines spécialisés à des utilisateurs
qui ne sont pas des documentalistes. Mais, même si Pechiney
a opté pour la solution Verity et le Leroy Merlin pour
celle de Sinequa, les deux entreprises justifient leur
choix par les mêmes raisons: selon elles, il s'agit
de "solutions de recherche sémantique capables
de s'adapter à des thématiques particulières". Principal
contrainte dans les deux cas : la nécessité d'effectuer
un travail manuel d'indexation en amont, et de l'affiner
par la suite en fonction des retours utilisateurs.
Ces chers moteurs dimensionnels
A la différence
de la méthode sémantique, le moteur dit statistique
propose une approche automatisée du mode de recherche.
Comme son nom l'indique, ce type d'outil s'appuie sur
des formules statistiques, plus connues sous le nom
d'algorithmes, pour effectuer un classement des réponses.
Principal critère d'appréciation : la fréquence d'apparition
des concepts demandés et leur répétition au sein de
chaque document. Acteur traiditionnel dans ce domaine,
Autonomy s'est fait rejoindre récemment par un
nouvel entrant nommé TripleHop.
Poussant au maximum la logique statistique, Instranet
propose quant à lui un moteur multi-dimensionnel.
Schématiquement, cette catégorie d'outil s'inspire
du mode de foncrionnement des cubes OLAP (OnLine Analytical
Processing) - utilisés notamment par les datawarehouses,
ou entrepôts de données au sein des systèmes décisionnels.
"Cette méthode, qui demande un paramétrage poussée,
affine la catégorisation des documents, ainsi que les
procédés de requêtes
croisées", indique Jean-Louis Bénard. Ici, les produits
affichent néanmoins des prix bien plus élevés
que les solutions précédentes (ajoutez un zéro !).
Vers la recherche en langage
naturel
Au côté de la stratégie de la plupart des éditeurs,
qui comme nous l'avons vu proposent des produits généralistes,
certaines sociétés plus petites choisissent de se démarquer
en offrant des produits adaptés à des secteurs bien
particuliers. Parmi ces acteurs figurent notamment Auracom
et Alogic, qui proposent des assistants de requêtes
à destination des documentalistes pour le premier et
des professionnels de la veille pour le second.
|