28/11/01
TripleHop
se place sur le terrain des moteurs de recherche statistique
A
lire aussi:
Panorama : Moteurs
de recherche
En général,
la plupart des outils de recherche peuvent être
classés sous deux grands types de technologies :
d'une part les moteurs sémantiques, qui cherchent
à analyser le
sens
des requêtes, et d'autre part les moteurs dits
statistiques. Dans ce dernier cas, les réponses
sont sélectionnées non plus au regard
de la langue, mais plutôt en fonction de la fréquence
d'apparition des concepts demandés et de leur répétition
au sein de chaque document. Acteur traditionnel sur
ce segment, Autonomy
vient de se faire rejoindre depuis peu par un nouvel
éditeur : TripleHop.
Fondée par deux français fin 1999, cette
société d'origine américaine basée
à New York
a lancé son moteur il y a un peu plus de 6 mois
Outre-Atlantique. Pour l'heure, elle débute tout
juste sa commercialisation en France.
Partant du constat de la croissance exponentielle des
quantités de contenu électronique et d'une
fragmentation des sources de données, TripleHop
présente son produit comme un outil d'accès
à des informations hétérogènes
adapté à la fois aux environnements internet
et intranet. "Pour répondre à ces
objectifs, nous proposons une méthode de recherche
statistique, qui évite les tâches fastidieuses
de conception de thésaurus spécialisés",
commence Renaud Laplanche, directeur général
de TripleHop. "Parallèlement, nous livrons
une série de connecteurs en vue de couvrir les
bases de divers systèmes."
Un algorithme statistique spécifique
Appelé MatchPoint, le produit de TripleHop est
théoriquement capable d'aboutir aux mêmes
performances qu'un outil de recherche sémantique
traditionnel. A savoir : répondre à
des requêtes conceptuelles en prenant en compte
termes et expressions connexes. Pour ce faire, il s'appuie
sur une méthode statistique baptisée SVM
(Support Vector Machine). Concrètement, celle-ci trace
les co-occurrences de mots ou de groupe de mots au sein
des documents. "Ces notions sont repérées
puis liées en fonction de la théorie des
'Most Informative Words', qui part du principe que plus
un objet textuel est rare plus sa valeur informative
est élevée", détaille Renaud
Laplanche. Dès lors, l'analyse aboutit à
des listes de concepts classés par importance,
et croisées entre elles. Chacune correspondant,
à la manière d'une gigantesque requête
à un ensemble de ressources triées par
pondération. Bref, il s'agit au total d'une technique
de génération automatique de réseaux
de concepts.
"A la différence du moteur d'Autonomy, MatchPoint
permet de modifier les associations ou d'en ajouter
de nouvelles", commente le responsable. Le contrôle
du mécanisme d'auto apprentissage est donc possible.
Autre facteur de différenciation : SVM offrirait
de meilleures performances quant au traitement des requêtes
multicritères. En effet, alors qu'Autonomy génère
des hypothèses afin d'effectuer ensuite ses calculs
dans un modèle vectoriel en 2 dimensions, MatchPoint
projette d'abord les données pré-définies
(caractéristiques produits, etc.) dans un espace
en n dimensions avant de les projeter dans un plan simple.
"Ce qui permet de prendre en compte jusqu'à
50 critères simultanés, et au final de restreindre
le nombre de réponses en gagnant en précision",
pointe-t-on chez TripleHop.
Des
requêtes adaptées aux profils utilisateur
Livré avec un jeu de tables de correspondances
-en vue d'intégrer les politiques d'accès
définies dans les systèmes d'entreprise
(réseau, etc.)-, MatchPoint enrichit les profils
utilisateur au fil des actions effectuées. Grâce
à cette base de connaissances, il peut ensuite
optimiser les requêtes de manière personnalisée,
et éventuellement publier des documents susceptibles
de répondre à l'intérêt du
client. Développée en Java pour les systèmes
de type Unix, la solution qui s'interface par le biais
de templates JSP (Java Server Pages) s'installe aussi
bien sur les serveurs d'applications WebLogic (BEA),
WebSphere (IBM),
ou encore Tomcat et JRun (Macromedia).
Particulièrement adaptée aux bases de
données Oracle,
elle fonctionne également avec SQL Server (Microsoft).
Une série de crawlers assurant les connexions
à divers applications tierces (e-mail, gestionnaire
de fichiers, base de données, serveur Web etc.).
"Nous ciblons notamment les cabinets de conseil,
la finance, le secteur de la communication et des média,
ainsi que les directions générales des
grands groupes", précise Renaud Laplanche,
puis il ajoute : "aux Etats-Unis, notre solution
a été choisie par JC Decaux ou encore
AOL Time Warner." Affichant un prix (dégressif)
de 100 euros par utilisateur et par mois, la commercialisation
de MatchPoint dans l'Hexagone est pris en charge par
l'intégrateur GTI,
qui a également participé au développement
du produit. "Nous comptons en moyenne entre 2 et
4 semaines de déploiement par projet", conclut
Renaud Laplanche.
A lire aussi:
Panorama : Moteurs
de recherche
|