BOURSE

Journal du Net > Solutions > TripleHop se place sur le terrain des moteurs de recherche statistique

Article

28/11/01

TripleHop se place sur le terrain des moteurs de recherche statistique

A lire aussi:
Panorama : Moteurs de recherche

En général, la plupart des outils de recherche peuvent être classés sous deux grands types de technologies : d'une part les moteurs sémantiques, qui cherchent à analyser le

sens des requêtes, et d'autre part les moteurs dits statistiques. Dans ce dernier cas, les réponses sont sélectionnées non plus au regard de la langue, mais plutôt en fonction de la fréquence d'apparition des concepts demandés et de leur répétition au sein de chaque document. Acteur traditionnel sur ce segment, Autonomy vient de se faire rejoindre depuis peu par un nouvel éditeur : TripleHop. Fondée par deux français fin 1999, cette société d'origine américaine basée à New York a lancé son moteur il y a un peu plus de 6 mois Outre-Atlantique. Pour l'heure, elle débute tout juste sa commercialisation en France.

Partant du constat de la croissance exponentielle des quantités de contenu électronique et d'une fragmentation des sources de données, TripleHop présente son produit comme un outil d'accès à des informations hétérogènes adapté à la fois aux environnements internet et intranet. "Pour répondre à ces objectifs, nous proposons une méthode de recherche statistique, qui évite les tâches fastidieuses de conception de thésaurus spécialisés", commence Renaud Laplanche, directeur général de TripleHop. "Parallèlement, nous livrons une série de connecteurs en vue de couvrir les bases de divers systèmes."

Un algorithme statistique spécifique
Appelé MatchPoint, le produit de TripleHop est théoriquement capable d'aboutir aux mêmes performances qu'un outil de recherche sémantique traditionnel. A savoir : répondre à des requêtes conceptuelles en prenant en compte termes et expressions connexes. Pour ce faire, il s'appuie sur une méthode statistique baptisée SVM (Support Vector Machine). Concrètement, celle-ci trace les co-occurrences de mots ou de groupe de mots au sein des documents. "Ces notions sont repérées puis liées en fonction de la théorie des 'Most Informative Words', qui part du principe que plus un objet textuel est rare plus sa valeur informative est élevée", détaille Renaud Laplanche. Dès lors, l'analyse aboutit à des listes de concepts classés par importance, et croisées entre elles. Chacune correspondant, à la manière d'une gigantesque requête à un ensemble de ressources triées par pondération. Bref, il s'agit au total d'une technique de génération automatique de réseaux de concepts.

"A la différence du moteur d'Autonomy, MatchPoint permet de modifier les associations ou d'en ajouter de nouvelles", commente le responsable. Le contrôle du mécanisme d'auto apprentissage est donc possible. Autre facteur de différenciation : SVM offrirait de meilleures performances quant au traitement des requêtes multicritères. En effet, alors qu'Autonomy génère des hypothèses afin d'effectuer ensuite ses calculs dans un modèle vectoriel en 2 dimensions, MatchPoint projette d'abord les données pré-définies (caractéristiques produits, etc.) dans un espace en n dimensions avant de les projeter dans un plan simple. "Ce qui permet de prendre en compte jusqu'à 50 critères simultanés, et au final de restreindre le nombre de réponses en gagnant en précision", pointe-t-on chez TripleHop.

Des requêtes adaptées aux profils utilisateur
Livré avec un jeu de tables de correspondances -en vue d'intégrer les politiques d'accès définies dans les systèmes d'entreprise (réseau, etc.)-, MatchPoint enrichit les profils utilisateur au fil des actions effectuées. Grâce à cette base de connaissances, il peut ensuite optimiser les requêtes de manière personnalisée, et éventuellement publier des documents susceptibles de répondre à l'intérêt du client. Développée en Java pour les systèmes de type Unix, la solution qui s'interface par le biais de templates JSP (Java Server Pages) s'installe aussi bien sur les serveurs d'applications WebLogic (BEA), WebSphere (IBM), ou encore Tomcat et JRun (Macromedia). Particulièrement adaptée aux bases de données Oracle, elle fonctionne également avec SQL Server (Microsoft). Une série de crawlers assurant les connexions à divers applications tierces (e-mail, gestionnaire de fichiers, base de données, serveur Web etc.).

"Nous ciblons notamment les cabinets de conseil, la finance, le secteur de la communication et des média, ainsi que les directions générales des grands groupes", précise Renaud Laplanche, puis il ajoute : "aux Etats-Unis, notre solution a été choisie par JC Decaux ou encore AOL Time Warner." Affichant un prix (dégressif) de 100 euros par utilisateur et par mois, la commercialisation de MatchPoint dans l'Hexagone est pris en charge par l'intégrateur GTI, qui a également participé au développement du produit. "Nous comptons en moyenne entre 2 et 4 semaines de déploiement par projet", conclut Renaud Laplanche.

A lire aussi:
Panorama : Moteurs de recherche

Rédaction JDN & JDN Solutions

JDN Solutions

TripleHop se place sur le terrain des moteurs de recherche statistique

Newsletters

Toutes nos newsletters