Intranet/Extranet
Panorama des moteurs de recherche des grands sites de presse
Produit propriétaire ou open source, formulaire simple ou avancé... Zoom sur les solutions de recherche retenues par les principaux sites de presse français. (Mercredi 16 octobre 2002)
     
En savoir plus
Nous publions ici le premier volet d'une série de panoramas sur les solutions de recherche utilisées par les plus grands sites français. Cette série débute par les principaux sites de presse. Elle se poursuivra avec les portails, puis les sites corporate des grandes entreprises de l'Hexagone. Pour finir, un zoom sera réalisé sur le secteur de la vente en ligne.

Quel est l'objectif central du moteur de recherche d'un site de presse ? Une telle application a pour but de fournir l'accès à une base de documents, archivée ou non, par le biais d'un index couplé à un module de requêtes. Visant l'internaute lambda, ce système se doit avant tout d'être aisé à utiliser, tout en étant capable de faire face en cas de besoins à de forts niveaux de montée en charge. Cette double problématique explique la relative simplicité fonctionnelle des implémentations mises en oeuvre par les sites de ce panorama.

Panorama des moteurs de recherche des grands sites corporate
Site
Fonctions
Solution
Commentaire de l'utilisateur
Recherche plein texte par mot cls, ou par société (ce qui renvoie aux articles et archives correspondants, à la fiche de la société, ses valeurs, etc.).
Lotus Notes (Outil de gestion de contenu intégrant un moteur de recherche)

L'indexation par société offre une excellente performance d'affichage. Elle permet en outre de lier leur nom, lorsqu'ils apparaissent au sein des pages Web, avec les requêtes/ réponses correspondantes.

Recherche par mot clé, et recherche avancée par période, titre et hauteur. Les fonctions de ce moteur plein texte open source sont considérées comme suffisantes pour un site de presse. Celui-ci répond aussi aux critères de performance requis dans ce cas.
Recherche par mot clé en fonction d'une date, et recherche avancée (tri par période, par pertinence, et fonctions booléennes).
interMedia (Oracle8i)
Le Monde.fr qui tourne sous l'outil de gestion de contenu de Vignette s'adosse à Oracle8i. Cette architecture l'a conduit à opter pour le module de la base du même nom. Un moteur plein texte qui s'intègrerait facilement à Vignette.
Recherche par mot clé, par catégorie d'informations (articles, etc.) et par rubriques (finance, énergie, etc.).
Verity K2 couplé à un module développé par Optimedia
Moteur de recherche plein texte, Verity est associé ici à un index de sociétés créé manuellement qui lui permet de proposer des pages de réponses spécifiques pour ce type de requête.
Recherche booléenne simple couplée à des fonctions de tri par date et par pertinence.
ht://Dig
Suite à une refonte de son site autour du langage PHP et la base mySQL, Libération a retenu une application open source. Cet outil comporterait des limites d'affichage dans le cas d'un site dynamique.
Recherche par mots clés et concepts, et recherche avancée par rubriques du site.
Verity K2
Nécessite un certain travail d'administration dans le cas d'un site multi-bases. On note des problémes d'indexation lors de l'utilisation de liens DHTML.

On remarque que deux des sites étudiés ici font appel à la même solution open source (soit ht://Dig). Comme le montre l'expérience de Libération.fr, cette technologie semble rencontrer certaines difficultés dans la gestion de sites dynamiques - à la fois lors des phases d'indexation et d'affichage. Un bilan qui conduit pour l'heure le quotidien à étudier d'autres outils open source en vue du remplacement éventuel de ht://Dig.

En savoir plus
Principal poids lourd des solutions de recherche, Verity est lui aussi utilisé par deux des principaux acteurs de la presse en ligne : Télérama et Les Echos. Alors que le premier fait face à quelques problèmes d'administration en environnement multi-bases, on constate que le second a choisi de faire appel à un prestataire externe (Optimedia) en vue d'ajouter à ce produit une couche d'indexation supplémentaire. Objectif affiché : couvrir d'autres sources de données (archives, bilan d'entreprises, etc.)... Conclusion : les capacités du moteur d'indexation de Verity se limiteraient-elles à la prise en compte d'une base de données unique ?
[Antoine Crochet Damais, JDNet]
 
Accueil | Haut de page
 
 

  Nouvelles offres d'emploi   sur Emploi Center
Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Toutes nos newsletters