Interview - Temis - Charles Huot et Pascal Coupet


		JDNet \| Emploi \| Développeurs \| Management \| Votre high-tech			Linternaute		Séminaires \| Etudes

Rechercher :

Progiciels

Fonds

VOTRE HIGH TECH

BOURSE

L'internaute Magazine

Interviews

Charles Huot et Pascal Coupet

Directeurs généraux, co-fondateurs

Temis

"Le text mining est plus transparent et plus large dans ses applications que le data mining"

Contraction de Text Mining Solutions, Temis est un éditeur d'outils d'indexation, de recherche et d'analyse textuelle entrant dans la catégorie du "text mining". Créée en septembre 2000 par Pascal Coupet et Charles Huot, la société est devenue en très peu de temps le principal spécialiste français de ces technologies d'avant-garde. A l'heure actuelle, elle sert les intérêts d'un nombre croissant de grands comptes, dont en Allemagne la banque Dresdner et la filiale d'édition Grüner and Jahr du groupe Bertelsmann. La liste reste limitée car dans ce domaine très stratégique, les langues ont parfois du mal à se délier, en particulier en France. En moins d'un an, l'éditeur a lancé pas moins de trois produits et plusieurs solutions dont une packagée. Labellisé par l'Anvar (l'agence nationale pour l'innovation), il a accueilli récemment dans son capital la filiale CL Venture Capital du Crédit Lyonnais.

Pour faire le point sur l'activité de Temis et les enjeux du "text mining", encore relativement méconnu, les deux dirigeants de l'entreprise se sont prêtés à nos questions.

Propos recueillis par François Morel le 31 juillet 2001 .

JDNet Solutions: quels sont les principaux objectifs du text mining ?
Pascal Coupet et Charles Huot: L'objectif du text mining est de structurer l'information à partir du texte libre pour la comprendre et l'utiliser avec des outils simples, et exploiter le contenu dans une optique commerciale. Il s'agit de donner de la valeur au texte libre, qui constitue une catégorie très large puisque l'on estime que 80 % de l'information dans le monde est disponible sous cette forme. Les systèmes intranet, ainsi que les applications de gestion électronique documentaire et de knowledge management (gestion des connaissances), gèrent essentiellement du texte libre.

Le text mining concerne surtout deux grands pôles d'intérêt. D'une part, lorsque l'utilisateur est confronté à une grande quantité de texte, il devient indispensable, à défaut de ne pas pouvoir gérer le volume d'informations. D'autre part, il permet de bénéficier d'une démarche normalisée et surtout automatisée. Si vous recevez cinq documents intéressants et si le système travaille en ressortant ce qui vous concerne, le gain est évident.

Comment fonctionne un logiciel de text mining ?

Pascal Coupet
Directeur général et directeur technique

Dans l'ordre, l'analyse linguistique, qui correspond à l'extraction d'informations, précède la catégorisation qui aide le système à comprendre l'existence d'un certain nombre de cases. Puis, intervient la classification automatique, c'est à dire la capacité de l'outil de text mining d'organiser de manière instantanée l'ensemble des documents. Cela concerne par exemple une centaine de dépêches, que le système organise en 10 classes qui ne sont pas pré-déterminées. En catégorisation, on connaît les catégories. En classification, on veut découvrir ces catégories.

Quelles sont les différences avec le data mining ?
Le data mining couvre beaucoup d'applications différentes qui ne présentent pas vraiment une vocation prédictive. Il s'agit surtout d'utiliser et de transformer des données non structurées en données structurées. Pour le text mining, j'ai 100 documents et je veux que le système les comprenne pour m'en donner une vue simplifiée. Il s'agit de prendre des documents, d'extraire des concepts et de les organiser.

En fait, le text mining présente une vocation complémentaire du data mining. Prenons l'exemple d'une fiche client qui s'appuie sur des critères habituels (ses revenus, sa catégorie socio-professionnelle et le fait qu'il soit marié ou non...). Il pourrait être intéressant d'intégrer des informations supplémentaires, sur la satisfaction client notamment. Si le client a envoyé des emails et a appelé pour se plaindre, le produit de text mining va codifier et ramener ces informations. Celles-ci pourront être couplées aux données numériques pour scorer et améliorer la fiche client. Dans le centre d'appels, les agents disposent du profil client et remplissent le résumé de la discussion. L'entreprise a pu prévoir des catégories pour décrire l'appel, et une partie de texte libre pour décrire la discussion. Or, ce que contient ce champ peut être extrait. Si à partir d'une demande d'information le client a exprimé son insatisfaction, cela procure une grande valeur pour décider s'il est important ou non de le retenir. Par exemple, faut-il agir si le client a parlé des concurrents ?

Quelles sont les autres applications du text mining ? L'intelligence économique en fait-elle partie ?
Cela fait partie des trois grands domaines sur lesquels travaille Témis, avant même l'analyse de la relation client qui constitue le deuxième ensemble le plus important. Dans des contextes de veille et d'intelligence économique, nous avons notamment un client qui utilise notre système pour analyser ce qui se fait dans les domaines du tourisme agricole et de l'artisanat. Il prend une région de l'Europe et regarde ce qui se passe sur les fils de news, puis obtient une vue dynamique de l'actualité dans ces domaines. Ensuite, il met à disposition des collaborateurs qui travaillent sur le développement local les informations analysées et extraites de tous les documents. Si l'un d'eux étudie le marché de l'huile d'olive, il saura tout ce qui se fait dans le monde à propos de l'huile d'olive et va pouvoir trouver des entreprises importantes du secteur. Dans un autre ordre d'idée, nous proposons aussi ces applications à des industriels qui analysent les brevets, en couvrant à la fois la veille technologique et l'intelligence économique.

Quelle est la répartition de la demande actuelle selon les trois grands domaines d'applications ?
Nous recevons beaucoup de demandes du côté de la veille et de l'intelligence économique, avec un nombre important de clients qui considèrent qu'une partie de la veille est du ressort de la gestion des connaissances. Et puis, nous sentons monter de plus en plus de demandes dans le domaine du CRM. Aujourd'hui, nous pourrions peut-être considérer que 50 % des clients viennent nous voir pour de la veille pure ou de l'intelligence économique. Après, 25 % des demandes sont relativement éparses entre la gestion des connaissances et les projets liés aux ressources humaines, ou à l'analyse de documents internes. Enfin, les 25 % restants s'intéressent à l'analyse d'e-mails, de forums et de questionnaires de qualité purs. Dans ce dernier contexte, les entreprises effectuent des sondages et demandent aux personnes de s'exprimer sur leur satisfaction. Et nous croyons véritablement que ce phénomème va s'amplifier.

Comment votre offre se structure-t-elle ?
Pour l'instant, nous vendons trois produits et une solution. Le premier produit, Insight Discoverer Extractor, s'articule autour d'une "skills cartridge" (littéralement: cartouche de compétences). Elle contient des mots et des règles linguistiques qui décrivent comment extraire des concepts. Nous en réalisons certaines sur-mesure pour des clients qui présentent des besoins spécifiques, comme dans le domaine de la pharmacie. Nous en vendons également d'autres sous forme prépackagée, qui sont destinées soit au CRM soit à la veille et contiennent déjà bon nombre de concepts adaptés. Cette "skills cartridge" est associée à un serveur Java/RMI qui renvoit des textes. Certains des slots de la cartouche peuvent être vides. Le moteur d'extraction fourni s'appuie sur des technologies linguistiques que nous avons développées dans le cadre d'un partenariat fort avec Xerox MKMS pour l'analyse grammaticale de la couche basse, c'est à dire la décomposition en noms, verbes, etc.

Et vos autres produits... ?
Notre second produit Insight Categorizer est plus simple, et adresse les besoins de catégorisation automatique. Il s'agit d'un système auquel nous montrons des catégories de documents et qui peut les apprendre. Dans le cadre par exemple d'un média d'information, il est capable de dire qu'un document rentre à 83 % dans la catégorie "sports" et à 12 % en "social". Enfin, notre troisième produit est Insight Discoverer Clusterer. Il sera capable d'élaborer automatiquement une classification dynamique à partir de vecteurs de documents qu'il pourra organiser en groupes similaires. En temps réel, il découvre les thèmes, sous-thèmes, sous-sous-thèmes etc.

S'appuient-ils sur une infrastructure Java / XML ?
Sur le plan technique, ces trois applications disposent d'une interface Java. Nous proposons aussi de petites interfaces pour la présentation des résultats, qui peuvent être intégrées en OEM par des éditeurs ou des grands comptes. Notre solution Online Miner est aussi capable de lire des documents dans certains formats XML, à partir desquels notre outil d'extraction peut générer des concepts. Mais pour nous, XML est avant tout un format d'entrée et de sortie très pratique.

Cette solution Online Miner permet-elle d'effectuer du text mining en recherchant sur des pages web ?
Il s'agit d'une solution plutôt consacrée à la veille, capable de "crawler" des documents à partir de différentes sources, qu'il s'agisse du web, de répertoires locaux ou de fiches XML parmi d'autres. Online Miner va ensuite pouvoir les analyser en fonction de la couche d'extraction, puis les stocker dans un référentiel. Le moteur de recherche rentre dans la partie back-end, et le front-end est constitué de l'interface de recherche et d'analyse des documents stockés. Il est ainsi possible d'obtenir des statistiques sur le nombre de concepts présents dans ces données, voire de les organiser ensuite en couplant son utilisation avec notre outil de clustering.

Quelle est votre politique d'intégration de vos outils en tant que modules dans des produits d'éditeurs tiers ?
En tant que jeune société, notre politique OEM est assez forte vis-à-vis des acteurs susceptibles d'intégrer nos solutions dans les leurs. Pour l'instant, il existe peu de produits commercialisés intégrant nos outils, à part ceux des sociétés Light Object en Suisse et Synthema en Italie. Quant à Eric Brégand de Business Objects, il a un peu défloré le sujet. Et en ce qui concerne notre stratégie, nous souhaitons rester éditeur de logiciels sans entrer dans le domaine des services d'intégration.

Où en sont à l'heure actuelle les technologies de résumé ? Celles-ci font-elles partie de vos orientations ?
Le terme de résumé peut laisser entendre deux significations différentes. D'une part, il existe des systèmes qui sélectionnent les phrases les plus pertinentes d'un document et reconstituent un texte à partir de cela. Nous ne le faisons pas, mais ces outils existent dans certaines universités. D'autre part, les systèmes de clustering, de classification et d'organisation par thème peuvent en un sens résumer une vingtaine de documents. Sur 200 actualités données, 50 vont parler de Chirac, 42 de mieux organiser ses vacances et 35 de cyclisme. Nous pouvons estimer que ces informations ont résumé l'ensemble de ces documents, et ça nous le faisons.

Mais à l'heure actuelle, les outils existants ne sont pas au niveau de l'exercice de langue française avec la possibilité de créer un texte de 10 pages à partir de 100. A ce jour en tout cas, je n'ai pas vu de système qui parvenait à cela. L'outil le plus intéressant que j'aie pu observer pouvait disséquer un document de 100 pages et fournir les 50 ou 20 phrases qui lui semblaient le plus porteur de sens.

Tous deux co-fondateurs de Temis, directeurs généraux et administrateurs de Temis Holding SA, Pascal Coupet et Charles Huot ont également accompli jusque-là toutes leurs carrières chez IBM.

Cumulant ses fonctions de dirigeant éxécutif de l'éditeur français fondé en 2000 avec celles de directeur technique, Pascal Coupet a d'abord occupé chez Big Blue, en France et aux Etats-Unis, diverses fonctions et responsabilités dans le domaine du développement de logiciels et de solutions de Text Mining. Il a aussi participé à la mise en oeuvre de projets en rapport avec le text mining dans des industries des secteurs pharmacie, banque-finance, chimie, télécommunications et services Internet...

De son côté, Charles Huot est également directeur de la stratégie de Temis, et est en charge de son développement commercial. Avant de participer activement à sa création, il a démarré sa carrière en 1990 au centre scientifique d'IBM pour réaliser une thèse sur les outils de veille technologique en relation avec le professeur Henri Dou du Centre de Recherche Rétrospective de Marseille. De 1993 à 2000, il a exercé diverses fonctions autour du développement du marché du text mining pour IBM.