Fast Data Search: un moteur de recherche ciblant les grands comptes

BOURSE

Intranet/Extranet

Fast Data Search: un moteur de recherche ciblant les grands comptes

Connu sur le terrain de la recherche Web, l'éditeur norvégien avance une solution packagée potentiellement capable de prendre en compte des milliards de documents... (Mercredi 15 janvier 2003)

En savoir plus

Moteur de recherche

Questions-Réponses
Les moteurs de recherche
Les technologies des moteurs de recherche

Le site

Fast

Quand elle couvre des millions de documents disséminés sur des dizaines de sources différentes, une solution de recherche doit s'adosser à une technologie dès plus performantes, à la fois en termes de capacité d'indexation et de processus de traitement.

C'est à cette double problématique qu'entend s'attaquer le norvégien Fast avec une application baptisée Fast Data Search. "Un enjeu qui concerne en premier lieu les grands comptes", reconnaît t-on d'emblée chez l'éditeur.

Commercialisé sous forme de licence annuelle, Fast Data Search a été conçu à partir de l'environnement exploité par Fast à partir de 1997 sur le terrain de la recherche Web. Indexant 20 milliards de documents, le centre de données en question cible principalement les grands portails et les fournisseurs d'accès à Internet. En Europe, il est notamment utilisé comme système de recherche de référence par Lycos, Club Internet ou encore Tiscali (voir l'article).

Une infrastructure de connexion multi-source
Prenant en charge 250 formats de fichiers, notamment le Flash, le moteur de Fast est doté d'agents (crawler) capables de se connecter à divers types de sources. Au programme : des serveurs Web quels qu'ils soient, ainsi que des bases de données (Oracle, DB2 et Lotus Notes notamment) et des systèmes de fichiers. Une interface de programmation d'applications (API) est également prévue pour accéder aux plates-formes propriétaires.

En amont, le mécanisme d'indexation commence par ajouter des méta- données à chaque entrée, structurée ou non. Du format en passant par la langue des contenus et leur adresse au sein d'un plan de classement éventuel, les éléments qu'elles recouvrent sont tous contrôlables par l'administrateur. "Aux côtés de cette couche, l'index, qui est décrit en FIXML (pour Fast Index XML), est couplé à diverses informations linguistiques (repérage des noms propres, des termes associés, etc.)", complète Pascal Gayat, Directeur Business Développement France de Fast.

Un assistant de requête
Reconnaissance de la langue, termes analogues, etc. La même méthode est appliquée lors du traitement des requêtes. "Dans le cas d'un simple mot clef, le moteur proposera des pistes permettant à l'utilisateur de préciser le champ sémantique qui l'intéresse - ce qui passe par une taxonomie générée à la volée, détaille Pascal Gayat. Le mot 'golf' renverra ainsi aux notions de 'sport', de 'géographie' et de 'véhicule'."

Quant à une requête en langage naturel, elle est d'abord nettoyée de tout termes dits "bruyants" avant d'être réduite à une ou plusieurs expressions considérées comme cohérentes : une caractéristique évaluée au regard des groupes de mots présents dans l'index. Au final, Fast Data Search compile classiquement ses réponses en croisant cette analyse avec celle effectuée lors de l'étape d'indexation.

La performance: au centre de la valeur ajouté de Fast...
"C'est en concentrant au maximum le traitement au niveau de l'indexation, mais aussi en exploitant des fonctions d'équilibrage de charge et de cache, que nous assurons ensuite une bonne performance générale à l'exécution du processus de recherche", insiste Pascal Gayat. Il s'agit sans doute là de l'une des principales valeurs ajoutées avancées par le produit face aux offres concurrentes, parmi lesquelles l'éditeur cite notamment les solutions de Verity, d'Autonomy et de Convera.

En savoir plus

Moteur de recherche

Questions-Réponses
Les moteurs de recherche
Les technologies des moteurs de recherche

Le site

Fast

Sur ce plan, Fast s'en sort plutôt bien. Pour preuve : son outil enregistre un taux d'expansion compris entre 1 à 2 et 1 à 10 selon les types de document, ce qui est une bonne moyenne (voir le questions-réponses). Potentiellement, il garantit en outre une disponibilité quasi-immédiate des indexes, suite à une mise à jour de ces derniers notamment.

Reste une ombre au tableau : la société norvégienne possède encore très peu de clients dans l'Hexagone - Reuters et IBM figurant parmi ses plus belles références internationales.

[Antoine Crochet-Damais, JDNet]

Accueil | Haut de page

Nouvelles offres d'emploi sur Emploi Center

Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY