30/05/01
Avec
Intuition, Sinequa met l'analyse vectorielle au service
de la recherche
Fort
de 15 ans d'expérience dans le domaine de la recherche
documentaire, Sinequa
propose un moteur de recherche fondé sur la comparaison
de textes. Baptisé Intuition, celui-ci s'appuie à la fois
sur un moteur d'analyse morpho-syntaxique et sur un algorithme
de recherche particulier. "Intuition intègre des fonctions
de recherche en langage naturel et d'analyse sémantique",
précise Philippe Laval, pdg de Sinequa.
Côte commercialisation, la société décline le produit
par domaines d'application : e-internet et e-catalog pour
les sites Web et les catalogues en ligne, e-intranet pour
les réseaux internes d'entreprise et e-CD-Rom pour les
CD-Rom. "En 2000, nous nous sommes concentrés sur
le marché des acteurs Web, alors qu'en 2001 notre stratégie
se porte plus sur le marché des intranets", souligne Philippe
Laval. Parmi ses principaux clients, Sinequa compte notamment
Les 3 Suisses, La Redoute, Leroy Merlin, Saint Gobin ou
Ouest France.
Un
moteur de recherche plein texte
Baptisé
EuroLemma, le module d'indexation et de recherche développé
par Sinequa inclut l'ensemble des fonctions d'un moteur
de recherche plein texte traditionnel. A savoir : la recherche
lexicale et les requêtes booléennes (et, ou, etc.), la
recherche floue (gestion des fautes d'orthographe), la
recherche sémantique (prise en compte des synonymes) et
le support des requêtes SQL (par date, par domaine, etc.).
Capable de manipuler tous les grands types de fichiers
(HTML, XML, PDF, Word, PowerPoint, etc.), EuroLemma prend
en charge deux types de requêtes. Le premier globalise
le sens global de la demande. Quant au second, il recherche
les documents comportant un nombre maximum des mots qu'elle
contient. "Et en cas de fautes dans un nom propre, le
moteur est également capable de phonétiser", précise Philippe
Laval.
Incluant des analyseurs pour le français, mais aussi pour
l'allemand et l'espagnol, EuroLemma détecte automatiquement
la langue d'un document en s'appuyant sur des dictionnaires
syntaxiques et des précis de grammaire.
L'analyse vectorielle
Une option
de recherche mathématique s'appuyant sur un modèle d'analyse
vectorielle vient compléter ce panel d'outils. Schématiquement,
celui-ci représente un document ou une requête sous la
forme d'un graphique. En fonction du sens des mots repérés
dans le texte, il détermine deux axes. S'il s'agit d'un
texte juridique, il pourrait définir par exemple le domaine
des lois en ordonnée et celui des fruits en abscisse.
En lisant la phrase : "l'avocat se rend au prétoire",
il commencera par placer le mot avocat sur la médiane.
Puis, après l'avoir recontextualisé au sein de l'expression,
il le positionnera finalement dans la partie supérieure
du graphe. "Un texte sera ainsi analysé en fonction de
800 coordonnées différentes", ajoute Philippe Laval. L'ensemble
de ces points formant un vecteur. Partant de ce calcul,
le système mesure pour finir la distance entre le vecteur
question et le vecteur réponse. Objectif : déterminer
les documents dont le sens est le plus proche du contenu
de la requête. Une technique qui se distingue de celle
reposant sur la co-occurrence de mots (ou de sens) entre
requêtes et documents.
Une
intégration étendue
S'appuyant
sur les pilotes ODBC et DBI, le moteur de Sinequa se connecte
à la plupart des bases de données du marché. Il s'interface
également avec plusieurs plates-formes de gestion de contenu,
telles que celles de Broadvision et de Vignette, et des
serveurs d'applications comme WebSphere, SQLServer ou
Sybase. Tout cela s'opère via des API (interfaces
de programme d'application). Développé en C++, Intuition
s'appuie sur architecture trois tiers.
Pour un projet ne nécessitant qu'une source de données,
le déploiement du moteur Sinequa demande une journée de
travail. En cas de référence à plusieurs bases de données,
l'intégration peut demander une semaine ou plus.
Les prix d'Intuition e-intranet et d'Intuition e-catalog
s'élèvent respectivement à 100/200 kF et 400/500 kF.
|