JDNet
Solutions: quels sont les principaux objectifs du text mining
?
Pascal Coupet et Charles
Huot: L'objectif
du text mining est de structurer l'information à partir
du texte libre pour la comprendre et l'utiliser avec des outils
simples, et exploiter le contenu dans une optique commerciale.
Il s'agit de donner de la valeur au texte libre, qui constitue
une catégorie très large puisque l'on estime
que 80 % de l'information dans le monde est disponible
sous cette forme. Les systèmes intranet, ainsi que
les applications de gestion électronique documentaire
et de knowledge management (gestion des connaissances), gèrent
essentiellement du texte libre.
Le text mining concerne surtout deux grands pôles d'intérêt.
D'une part, lorsque l'utilisateur est confronté à
une grande quantité de texte, il devient indispensable,
à défaut de ne pas pouvoir gérer le volume
d'informations. D'autre part, il permet de bénéficier
d'une démarche normalisée et surtout automatisée.
Si vous recevez cinq documents intéressants et si le
système travaille en ressortant ce qui vous concerne,
le gain est évident.
Comment
fonctionne un logiciel de text mining ?
|
Pascal
Coupet
Directeur général
et directeur technique
|
Dans l'ordre, l'analyse linguistique,
qui correspond à l'extraction d'informations, précède
la catégorisation qui aide le système à
comprendre l'existence d'un certain nombre de cases. Puis,
intervient la classification automatique, c'est à dire
la capacité de l'outil de text mining d'organiser de
manière instantanée l'ensemble des documents.
Cela concerne par exemple une centaine de dépêches,
que le système organise en 10 classes qui ne sont
pas pré-déterminées. En catégorisation,
on connaît les catégories. En classification,
on veut découvrir ces catégories.
Quelles
sont les différences avec le data mining ?
Le data mining couvre beaucoup d'applications différentes
qui ne présentent pas vraiment une vocation prédictive.
Il s'agit surtout d'utiliser et de transformer des données
non structurées en données structurées.
Pour le text mining, j'ai 100 documents et je veux que le
système les comprenne pour m'en donner une vue simplifiée.
Il s'agit de prendre des documents, d'extraire des concepts
et de les organiser.
En fait, le text mining
présente une vocation complémentaire du data
mining. Prenons l'exemple d'une fiche client qui s'appuie
sur des critères habituels (ses revenus, sa catégorie
socio-professionnelle et le fait qu'il soit marié ou
non...). Il pourrait être intéressant d'intégrer
des informations supplémentaires, sur la satisfaction
client notamment. Si le client a envoyé des emails
et a appelé pour se plaindre, le produit de text mining
va codifier et ramener ces informations. Celles-ci pourront
être couplées aux données numériques
pour scorer et améliorer la fiche client. Dans le centre
d'appels, les agents disposent du profil client et remplissent
le résumé de la discussion. L'entreprise a pu
prévoir des catégories pour décrire l'appel,
et une partie de texte libre pour décrire la discussion.
Or, ce que contient ce champ peut être extrait. Si à
partir d'une demande d'information le client a exprimé
son insatisfaction, cela procure une grande valeur pour décider
s'il est important ou non de le retenir. Par exemple, faut-il
agir si le client a parlé des concurrents ?
Quelles
sont les autres applications du text mining ? L'intelligence
économique en fait-elle partie ?
Cela fait partie des trois grands domaines sur lesquels travaille
Témis, avant même l'analyse de la relation client
qui constitue le deuxième ensemble le plus important.
Dans des contextes de veille et d'intelligence économique,
nous avons notamment un client qui utilise notre système
pour analyser ce qui se fait dans les domaines du tourisme
agricole et de l'artisanat. Il prend une région de
l'Europe et regarde ce qui se passe sur les fils de news,
puis obtient une vue dynamique de l'actualité dans
ces domaines. Ensuite, il met à disposition des collaborateurs
qui travaillent sur le développement local les informations
analysées et extraites de tous les documents. Si l'un
d'eux étudie le marché de l'huile d'olive, il
saura tout ce qui se fait dans le monde à propos de
l'huile d'olive et va pouvoir trouver des entreprises importantes
du secteur. Dans un autre ordre d'idée, nous proposons
aussi ces applications à des industriels qui analysent
les brevets, en couvrant à la fois la veille technologique
et l'intelligence économique.
Quelle
est la répartition de la demande actuelle selon les
trois grands domaines d'applications ?
Nous recevons beaucoup de demandes du côté de
la veille et de l'intelligence économique, avec un
nombre important de clients qui considèrent qu'une
partie de la veille est du ressort de la gestion des connaissances.
Et puis, nous sentons monter de plus en plus de demandes dans
le domaine du CRM. Aujourd'hui, nous pourrions peut-être
considérer que 50 % des clients viennent nous
voir pour de la veille pure ou de l'intelligence économique.
Après, 25 % des demandes sont relativement éparses
entre la gestion des connaissances et les projets liés
aux ressources humaines, ou à l'analyse de documents
internes. Enfin, les 25 % restants s'intéressent
à l'analyse d'e-mails, de forums et de questionnaires
de qualité purs. Dans ce dernier contexte, les entreprises
effectuent des sondages et demandent aux personnes de s'exprimer
sur leur satisfaction. Et nous croyons véritablement
que ce phénomème va s'amplifier.
Comment
votre offre se structure-t-elle ?
Pour l'instant, nous vendons trois produits et une solution.
Le premier produit, Insight Discoverer Extractor, s'articule
autour d'une "skills cartridge" (littéralement:
cartouche de compétences). Elle contient des mots et
des règles linguistiques qui décrivent comment
extraire des concepts. Nous en réalisons certaines
sur-mesure pour des clients qui présentent des besoins
spécifiques, comme dans le domaine de la pharmacie.
Nous en vendons également d'autres sous forme prépackagée,
qui sont destinées soit au CRM soit à la veille
et contiennent déjà bon nombre de concepts adaptés.
Cette "skills cartridge" est associée à
un serveur Java/RMI qui renvoit des textes. Certains des slots
de la cartouche peuvent être vides. Le moteur d'extraction
fourni s'appuie sur des technologies linguistiques que nous
avons développées dans le cadre d'un partenariat
fort avec Xerox MKMS pour l'analyse grammaticale de la couche
basse, c'est à dire la décomposition en noms,
verbes, etc.
Et
vos autres produits... ?
Notre second produit Insight
Categorizer est plus simple, et adresse les besoins de catégorisation
automatique. Il s'agit d'un système auquel nous montrons
des catégories de documents et qui peut les apprendre.
Dans le cadre par exemple d'un média d'information,
il est capable de dire qu'un document rentre à 83 %
dans la catégorie "sports" et à 12 %
en "social". Enfin, notre troisième produit
est Insight Discoverer Clusterer. Il sera capable d'élaborer
automatiquement une classification dynamique à partir
de vecteurs de documents qu'il pourra organiser en groupes
similaires. En temps réel, il découvre les thèmes,
sous-thèmes, sous-sous-thèmes etc.
S'appuient-ils
sur une infrastructure Java / XML ?
Sur le plan technique, ces trois applications disposent d'une
interface Java. Nous proposons aussi de petites interfaces
pour la présentation des résultats, qui peuvent
être intégrées en OEM par des éditeurs
ou des grands comptes. Notre solution Online Miner est aussi
capable de lire des documents dans certains formats XML, à
partir desquels notre outil d'extraction peut générer
des concepts. Mais pour nous, XML est avant tout un format
d'entrée et de sortie très pratique.
Cette
solution Online Miner permet-elle d'effectuer du text mining
en recherchant sur des pages web ?
Il s'agit d'une solution plutôt consacrée à
la veille, capable de "crawler" des documents à
partir de différentes sources, qu'il s'agisse du web,
de répertoires locaux ou de fiches XML parmi d'autres.
Online Miner va ensuite pouvoir les analyser en fonction de
la couche d'extraction, puis les stocker dans un référentiel.
Le moteur de recherche rentre dans la partie back-end, et
le front-end est constitué de l'interface de recherche
et d'analyse des documents stockés. Il est ainsi possible
d'obtenir des statistiques sur le nombre de concepts présents
dans ces données, voire de les organiser ensuite en
couplant son utilisation avec notre outil de clustering.
Quelle
est votre politique d'intégration de vos outils en
tant que modules dans des produits d'éditeurs tiers ?
En tant que jeune société, notre politique OEM
est assez forte vis-à-vis des acteurs susceptibles
d'intégrer nos solutions dans les leurs. Pour l'instant,
il existe peu de produits commercialisés intégrant
nos outils, à part ceux des sociétés
Light Object en Suisse et Synthema en Italie. Quant à
Eric
Brégand de Business Objects, il a un peu défloré
le sujet. Et en ce qui concerne notre stratégie, nous
souhaitons rester éditeur de logiciels sans entrer
dans le domaine des services d'intégration.
Où
en sont à l'heure actuelle les technologies de résumé
? Celles-ci font-elles partie de vos orientations ?
Le terme de résumé peut laisser entendre deux
significations différentes. D'une part, il existe des
systèmes qui sélectionnent les phrases les plus
pertinentes d'un document et reconstituent un texte à
partir de cela. Nous ne le faisons pas, mais ces outils existent
dans certaines universités. D'autre part, les systèmes
de clustering, de classification et d'organisation par thème
peuvent en un sens résumer une vingtaine de documents.
Sur 200 actualités données, 50 vont
parler de Chirac, 42 de mieux organiser ses vacances
et 35 de cyclisme. Nous pouvons estimer que ces informations
ont résumé l'ensemble de ces documents, et ça
nous le faisons.
Mais à l'heure actuelle, les outils existants ne sont
pas au niveau de l'exercice de langue française avec
la possibilité de créer un texte de 10 pages
à partir de 100. A ce jour en tout cas, je n'ai pas
vu de système qui parvenait à cela. L'outil
le plus intéressant que j'aie pu observer pouvait disséquer
un document de 100 pages et fournir les 50 ou 20 phrases
qui lui semblaient le plus porteur de sens.
|