Nous publions ici le premier
volet d'une série de panoramas sur les solutions
de recherche utilisées par les plus grands sites
français. Cette série débute par les principaux
sites de presse. Elle se poursuivra avec les portails,
puis les sites corporate des grandes entreprises de l'Hexagone.
Pour finir, un zoom sera réalisé sur le
secteur de la vente en ligne.
Quel est l'objectif
central du moteur de recherche d'un site de presse ?
Une telle application a pour but de fournir l'accès
à une base de documents, archivée ou non,
par le biais d'un index couplé à un module
de requêtes. Visant l'internaute lambda, ce système
se doit avant tout d'être aisé à utiliser,
tout en étant capable de faire face en cas de besoins
à de forts niveaux de montée en charge.
Cette double problématique explique la relative
simplicité fonctionnelle des implémentations
mises en oeuvre par les sites de ce panorama.
Panorama
des moteurs de recherche des grands sites corporate
|
Site
|
Fonctions
|
Solution
|
Commentaire
de l'utilisateur
|
|
Recherche
plein texte par mot cls, ou par société
(ce qui renvoie aux articles et archives correspondants,
à la fiche de la société, ses
valeurs, etc.). |
Lotus
Notes (Outil de gestion de contenu intégrant
un moteur de recherche)
|
L'indexation par
société offre une excellente performance
d'affichage. Elle permet en outre de lier leur
nom, lorsqu'ils apparaissent au sein des pages
Web, avec les requêtes/ réponses
correspondantes.
|
|
Recherche
par mot clé, et recherche avancée
par période, titre et hauteur. |
|
Les
fonctions de ce moteur plein texte open source
sont considérées comme suffisantes
pour un site de presse. Celui-ci répond aussi
aux critères de performance requis dans ce
cas. |
|
Recherche
par mot clé en fonction d'une date, et
recherche avancée (tri par période,
par pertinence, et fonctions booléennes).
|
|
Le Monde.fr qui tourne sous l'outil de gestion de
contenu de Vignette s'adosse à Oracle8i. Cette architecture
l'a conduit à opter pour le module de la base du
même nom. Un moteur plein texte qui s'intègrerait
facilement à Vignette. |
|
Recherche
par mot clé, par catégorie d'informations
(articles, etc.) et par rubriques (finance, énergie,
etc.). |
|
Moteur
de recherche plein texte, Verity est associé
ici à un index de sociétés
créé manuellement qui lui permet de
proposer des pages de réponses spécifiques
pour ce type de requête. |
|
Recherche
booléenne simple couplée à
des fonctions de tri par date et par pertinence.
|
ht://Dig
|
Suite
à une refonte de son site autour du langage PHP
et la base mySQL, Libération a retenu une application
open source. Cet outil comporterait des limites
d'affichage dans le cas d'un site dynamique. |
|
Recherche
par mots clés et concepts, et recherche avancée
par rubriques du site. |
Verity
K2
|
Nécessite
un certain travail d'administration dans le cas
d'un site multi-bases. On note des problémes
d'indexation lors de l'utilisation de liens DHTML. |
On
remarque que deux des sites étudiés ici
font appel à la même solution open source
(soit ht://Dig). Comme le montre l'expérience
de Libération.fr, cette technologie semble rencontrer
certaines difficultés dans la gestion de sites
dynamiques - à la fois lors des phases d'indexation
et d'affichage. Un bilan qui conduit pour l'heure le
quotidien à étudier d'autres outils open
source en vue du remplacement éventuel de
ht://Dig.
Principal poids lourd des
solutions de recherche, Verity est lui aussi utilisé
par deux des principaux acteurs de la presse en ligne :
Télérama et Les Echos. Alors que le premier
fait face à quelques problèmes d'administration
en environnement multi-bases, on constate que le second
a choisi de faire appel à un prestataire externe
(Optimedia) en vue d'ajouter à ce produit une couche
d'indexation supplémentaire. Objectif affiché :
couvrir d'autres sources de données (archives,
bilan d'entreprises, etc.)... Conclusion : les capacités
du moteur d'indexation de Verity se limiteraient-elles
à la prise en compte d'une base de données
unique ?
|