En
savoir plus
|
|
Le
site
|
Fast |
Quand elle couvre des millions
de documents disséminés sur des dizaines
de sources différentes, une solution de recherche
doit s'adosser à une technologie dès plus
performantes, à la fois en termes de capacité
d'indexation et de processus de traitement.
C'est à cette double problématique qu'entend
s'attaquer le norvégien Fast avec une application
baptisée Fast Data Search. "Un enjeu qui concerne
en premier lieu les grands comptes", reconnaît
t-on d'emblée chez l'éditeur.
Commercialisé sous forme de licence annuelle, Fast
Data Search a été conçu à
partir de l'environnement exploité par Fast à
partir de 1997 sur le terrain de la recherche Web. Indexant
20 milliards de documents, le centre de données
en question cible principalement les grands portails et
les fournisseurs d'accès à Internet. En
Europe, il est notamment utilisé comme système
de recherche de référence par Lycos, Club
Internet ou encore Tiscali (voir l'article).
Une
infrastructure de connexion multi-source
Prenant en charge
250 formats de fichiers, notamment le Flash, le moteur
de Fast est doté d'agents (crawler) capables
de se connecter à divers types de sources. Au
programme : des serveurs Web quels qu'ils soient,
ainsi que des bases de données (Oracle, DB2 et
Lotus Notes notamment) et des systèmes de fichiers.
Une interface de programmation d'applications (API)
est également prévue pour accéder
aux plates-formes propriétaires.
En
amont, le mécanisme d'indexation commence par
ajouter des méta- données à chaque
entrée, structurée ou non. Du format en
passant par la langue des contenus et leur adresse au
sein d'un plan de classement éventuel, les éléments
qu'elles recouvrent sont tous contrôlables par
l'administrateur. "Aux côtés de cette
couche, l'index, qui est décrit en FIXML (pour
Fast Index XML), est couplé à diverses
informations linguistiques (repérage des noms
propres, des termes associés, etc.)", complète
Pascal Gayat, Directeur Business Développement
France de Fast.
Un
assistant de requête
Reconnaissance
de la langue, termes analogues, etc. La même méthode
est appliquée lors du traitement des requêtes.
"Dans le cas d'un simple mot clef, le moteur proposera
des pistes permettant à l'utilisateur de préciser
le champ sémantique qui l'intéresse -
ce qui passe par une taxonomie générée
à la volée, détaille Pascal Gayat.
Le mot 'golf' renverra ainsi aux notions de 'sport',
de 'géographie' et de 'véhicule'."
Quant à une requête en langage naturel,
elle est d'abord nettoyée de tout termes dits
"bruyants" avant d'être réduite
à une ou plusieurs expressions considérées
comme cohérentes : une caractéristique
évaluée au regard des groupes de mots
présents dans l'index. Au final, Fast Data Search
compile classiquement ses réponses en croisant
cette analyse avec celle effectuée lors de l'étape
d'indexation.
La performance:
au centre de la valeur ajouté de Fast...
"C'est
en concentrant au maximum le traitement au niveau de
l'indexation, mais aussi en exploitant des fonctions
d'équilibrage de charge et de cache, que nous
assurons ensuite une bonne performance générale
à l'exécution du processus de recherche",
insiste Pascal Gayat. Il s'agit sans doute là
de l'une des principales valeurs ajoutées avancées
par le produit face aux offres concurrentes, parmi lesquelles
l'éditeur cite notamment les solutions de Verity,
d'Autonomy et de Convera.
En
savoir plus
|
|
Le
site
|
Fast |
Sur ce plan, Fast s'en sort
plutôt bien. Pour preuve : son outil enregistre
un taux d'expansion compris entre 1 à 2 et 1 à
10 selon les types de document, ce qui est une bonne moyenne
(voir le questions-réponses).
Potentiellement, il garantit en outre une disponibilité
quasi-immédiate des indexes, suite à une
mise à jour de ces derniers notamment.
Reste une ombre au tableau : la société
norvégienne possède encore très peu
de clients dans l'Hexagone - Reuters et IBM figurant parmi
ses plus belles références internationales.
|