18/12/01
Delphes
fonde sa technologie de recherche sur l'analyse morpho-syntaxique
Afin de dépasser
les capacités des moteurs de recherche dits booléens,
certains éditeurs (tels que Albert
et LexiQuest)
proposent l'ajout d'une couche logicielle assurant la
traduction des requêtes. D'autres optent
plutôt
pour des systèmes d'analyse linguistique différents
tendant à cerner le contexte d'une demande. Entrant
précisément dans cette seconde catégorie,
Delphes
Technologies International a choisi de se limiter
à la manière d'Atomz
au champ d'application du Web.
L'analyse
morpho-syntaxique des textes
Prenant en compte
les pages Web aussi bien statiques que dynamiques ainsi
que les fichiers au format PDF, le moteur de recherche
de Delphes (DioWeb) s'adosse principalement à
des méthodes d'analyse morpho-syntaxique -couvrant
le français l'anglais et l'espagnole. "A
un premier niveau, l'étude morphologique assure
la reconnaissance des termes en fonction de leur racine",
détaille Richard Turgeon, directeur marketing
chez Delphes. Ici, le concept "investissement"
sera typiquement associé à "investir"
ou encore "investisseur". A un second niveau,
le moteur applique des analyseurs grammaticaux et syntaxiques
pour repérer les suites de mots formant des expressions
ou des phrases (tel que sujet/verbe/complément).
"Nous travaillons actuellement à l'ajout
d'une composante sémantique à cet ensemble",
confie t-on chez l'éditeur. "Une évolution
qui contribuera à intégrer l'identification
des synonymes et des termes connexes."
Une fois installé, DioWeb commence par extraire
les occurrences (expressions, phrases, etc.) présentes
dans l'ensemble des documents du serveur Web, bornes
meta
comprises.
Une phase préliminaire qui garantit l'optimisation
des temps de réponse, puisque le moteur se contente
ensuite d'analyser le contenu des requêtes puis
de le comparer directement à cette base d'indexation.
Au final, DioWeb est capable de cerner les documents
contenant des extraits proches de tout ou partie de
l'expression contenue dans la requête. Ainsi à
la demande "services financiers offerts aux entreprises
en démarrage", le moteur associera par exemple
l'extrait de page suivant : "Il s'agit de
la demande de services financiers offerts aux entreprises
en démarrage".
Des tests effectués
sur un serveur de 250 000 fichiers
L'interface de résultats assure un classement
des réponses au regard du rapprochement entre
le contexte de la requête et celui des documents.
"Les passages pertinents sont surlignés
afin de faciliter la lecture du texte", commente
Richard Turgeon. Et en cas de fichiers incluant plusieurs
pages, une barre de navigation permet de retrouver rapidement
ces différents extraits. Tournant sous Windows
(et bientôt sous Unix) et développé
en C++, le moteur a fait l'objet de tests de performance
sur un index de près de 250 000 documents.
Résultat : les temps de réponse n'ont
jamais dépassé quelques secondes.
Delphes décline sa solution en deux éditions :
d'une part DioWeb Recherche -qui se limite aux fonctions
d'analyse morphologique et grammaticale (prix d'entrée :
1300 euros pour 1000 pages), et DioWeb Entreprise d'autre
part. Proposant un mode d'installation à distance,
la société québécoise, qui
lance tout juste la phase de commercialisation de son
offre, affiche l'ambition de toucher toutes les zones
de la planètes. "Pour les projets d'intranet nécessitant
un travail d'intégration poussé nous nous
appuierons sur des partenaires locaux", confie
Richard Turgeon.
Intégrant également un module de collecte
de contenus Web distants, DioWeb Entreprise a été
conçu pour répondre à diverses
problématiques : depuis la recherche au
sein d'un simple site Web ou d'un intranet, en passant
par la création de portails jusqu'à l'assistance
à la veille. Sur la liste de ses principaux clients
figurent notamment le site BellZinc
(Bell)
ou encore le Centre
de Promotion du Logiciel Québécois.
|