(Mis
à jour le 3/12/2001)
Quel est le périmètre couvert par
les moteurs de recherche ?
Historiquement, les moteurs de
recherche sont d'abord utilisés pour effectuer des recherches sur les
fichiers texte stockés dans les répertoires d'un simple système
d'exploitation.
Au fil de l'avancement des technologies,
ce type d'application s'est ensuite étendu à d'autres formats de fichiers
(images, vidéos, etc.), ainsi qu'aux bases de données. Le second
terrain de prédilection des moteurs arrive avec l'avènement d'Internet,
qui voit apparaître des outils capables d'indexer des pages HTML stockées
sur des serveurs Web distants. Aujourd'hui, les grandes solutions de recherche
englobent de plus en plus ces deux aspects. Elles proposent à la
fois des modules capables de prendre en compte système local ou des serveurs
d'applications sur un réseau interne et des serveurs Web accessibles
via Internet.
Quelles sont les principales applications de
ces solutions ?
Sur Internet, vous les connaissez. Il s'agit des moteurs de recherche,
tels que Google, HotBot, etc. Ceux-ci
étant généralement utilisés par de grands portails ou annuaires
de recherche (Yahoo, Lycos et Altavista,
etc.). A côté de ce foisonnement d'applications propres au Net, les solutions
de recherche sont également en passe de se généraliser
dans le monde de l'entreprise. Depuis l'assistance technique dans le domaine
du CRM, en passant par les traitements spécifiques à un intranet de gestion
documentaire, jusqu'aux services de veille stratégique couvrant réseau
interne et sites Web, les outils de recherche sont omniprésents
à tous les étages.
Quelle différence entre le mode de recherche
dit "plein texte" et la recherche sémantique ?
Alors qu'une recherche plein texte tente simplement d'identifier les documents
comprenant le plus grand nombre de mots inclus dans la requête de l'utilisateur,
la technique sémantique passe par une interprétation
du sens de la demande. S'appuyant
sur un ou plusieurs dictionnaires et thésaurus, et pourquoi pas des
analyseurs syntaxiques, ce genre de méthode prend
à la fois en compte les mots et les expressions connexes.
Ce qui peut permettre au final d'effectuer
une recherche sous la forme d'une phrase simple.
Dictionnaire et thésaurus
? Quelle différence ?
Plus ou moins spécialisé, un thésaurus
correspond à une liste de concepts (termes ou expressions) classés par
familles et sous-familles en fonction d'un sens particulier. Ainsi, un
thésaurus lié au domaine informatique incluera Java dans la partie langage
de développement. Les moteurs utilisent généralement ce type d'appui pour
affiner la recherche de concepts connexes, si aucun terme demandé ne figure
dans son index.
Au delà de l'analyse du sens, quelles
techniques utilisent les moteurs de recherche ?
Certains moteurs enrichissent l'approche sémantique par des algorithmes
de recherche mesurant la co-occurrence de mots (ou de sens) entre requêtes
et documents. D'autres outils statistiques
utilisent également l'analyse multi-dimensionnelle : une technique
qui s'inspire de celle des cubes OLAP (OnLine Analytical Processing) -
utilisée notamment par les entrepôts de données au sein des systèmes décisionnels.
Ce type d'outil permet d'effectuer des recherches croisées sur une base
de données. Analyse vectorielle, théorie de l'information de Shannon,
inférence Baysienne, etc. Dans ce domaine, les éditeurs n'hésitent pas
à faire appel aux grands théorèmes mathématiques.
A quoi correspondent
requêtes booléennes ?
S'appuyant sur le modèle élaboré par le mathématicien anglais Georges
Bool, une requête 'booléenne' permet d'inclure à
une demande certaines conditions (sous forme d'opérateurs).
Ainsi, une solution supportant cette technique peut accueillir la question
suivante : "prestataires de service" and "informatique d'entreprise".
Pour répondre, le moteur recherche l'ensemble des documents incluant
les deux groupes de mots. Beaucoup d'autres opérateurs existent, parmi
lesquels "or", "near" et "not".
Ces technologies sont-elles mûres ?
Dans le domaine de la recherche sémantique, les technologies commencent
tout juste à faire leurs preuves. Mais après quelques années
de mise en production, on s'est très vite rendu compte que leur
fonctionnement demandait souvent un suivi quotidien des thésaurus et des
dictionnaires associés. Sans compter un paramétrage important en amont
des projets. Au final, les procédés les plus performants, et offrant un
rapport/qualité prix optimal, semblent être ceux qui rendent à l'utilisateur
une partie de la maîtrise de sa recherche. Sans imposer une technique
trop complexe (requêtes booléennes, etc.), ils contribuent à affiner
une demande en affichant certaines informations - le nombre de réponses
disponibles ou encore l'ensemble des expressions indexées proches de celles
proposées. Il s'agit des assistants de requêtes.
Existe-t-il des applications métier plus spécifiques
?
Les éditeurs se concentrent beaucoup plus sur des politiques généralistes
que sur les applications métier. Mais, comme cela été
dit dans la synthèse
de notre dossier, certaines solutions un peu plus spécialisées
commencent à apparaître, notamment dans les domaines de la
veille et de la gestion documentaire.
[Antoine Crochet Damais, JDNet] |