Promises à un avenir en or dans les années 1990, les technologies
de la parole affichent en 2005 un bilan mitigé. Certes, elles s'introduisent
chaque jour de plus en plus dans le quotidien à travers les
téléphones portables, les PDA, les serveurs vocaux interactifs
Mais le bilan est loin d'atteindre les espérances des analystes
de marché.
Les technologies de la parole regroupent deux secteurs distincts
: la synthèse vocale et la reconnaissance vocale, chacun ayant
connu un développement propre. La synthèse vocale, au contraire
de la reconnaissance vocale, cherche à reproduire une voix
humaine à partir d'une combinaison de mots. Contrairement
à une liste de sons pré-enregistrés, la synthèse vocale peut
adapter son discours en fonction de divers paramètres, l'exemple
type étant le serveur vocal.
"Les
premiers serveurs vocaux interactifs remontent à 15 ou 20
ans environ. A l'époque, il s'agissait de diffuser des informations
générales comme le journal de 20H. Les débuts du serveur vocal
interactif offraient à l'appelant de pouvoir naviguer à travers
les touches de son téléphone dans un menu", se souvient Anne Lacouberie,
responsable marketing de la société de services Prosodie.
L'un des premiers objectifs de la synthèse vocale se résume
à simplifier l'accès à l'information de la part de l'utilisateur.
Mais les voix de synthèse, à l'époque trop éloignées d'une
voix humaine repoussent parfois l'utilisateur. Autre marché
traditionnel des technologies de la parole, celui de l'accessibilité.
En effet, la parole demeure un moyen simple et efficace de
rendre l'information accessible aux personnes handicapées,
mais aussi aux personnes âgées.
"Nous
sommes passés du stade de robot à celui
de speaker" - Acapella |
Mais les technologies ont évolué, positionnant la synthèse
vocale sur des marchés connexes. En enrichissant leurs bases
de sons, les éditeurs de synthèse vocale réussissent ces dernières
années à reproduire fidèlement la voix humaine. "Les éditeurs
de solutions de synthèse vocales ont atteint la deuxième
génération de produits. Nous sommes ainsi passés du stade
de robot à celui de speaker", note Antoine Kauffeisen, directeur
marketing et communication de l'éditeur Acapella.
Grâce à ces nouvelles fonctionnalités, la synthèse vocale
conquiert des parts de marché dans l'automobile, sur les systèmes
de GPS mais aussi dans le multimédia et la domotique. "En
plus de voix standards disponibles à tous, la synthèse vocale
permet de personnaliser sa propre voix. Derrière, l'idée sous-jacente
est de conserver l'identité sonore de la société", affirme
Françoise Mohymont, ingénieur support technique chez l'éditeur
Scansoft.
Et face à des environnements de plus en plus riches en fonctionnalités,
la synthèse vocale se propose de simplifier la navigation.
"Chez Darty, leurs différents services utilisateurs regroupaient
près de 300 numéros d'appels distincts. La notion de portail
vocal pousse alors à une logique de synthèse et de reconnaissance
vocale. Cela évite que l'utilisateur ne se perde et de son
coté, l'entreprise libère de la ressource humaine en automatisant
un service", souligne Anne Lacouberie.
Le
délai d'apprentissage a été réduit
d'une heure à 5 minutes |
Seul souci, l'aspect encore trop manichéen du traitement
de la voix. "Maintenant que nous offrons une voix quasi-humaine,
le client s'attend à davantage d'elle. Par exemple, les résultats
sportifs ne doivent pas être énoncés comme des résultats économiques,
ce qui est pourtant le cas actuellement. La prochaine génération
de produit doit faire passer la synthèse vocale au stade d'acteur,
capable de transmettre des émotions", prévoit Antoine Kauffeisen.
Cette maturité de l'offre se constate également sur le marché
de la reconnaissance vocale. "Il y a 5 ans, la phase d'apprentissage
du logiciel durait une heure pour un taux d'acceptation de
90% par la suite. Avec les dernières versions des logiciels,
cette étape ne prend plus que 5 minutes.", ajoute Françoise
Mohymont. Avec la réduction du délai d'apprentissage, les
éditeurs ont aussi travaillé sur leur base de modèles acoustiques,
optimisant les langues disponibles et les accents mais aussi
le traitement d'erreurs.
"A l'issue de la phase d'apprentissage, le taux de performance
se situe entre 85 et 90% pour une personne normale. Au bout
d'une semaine, il s'élève à 99% dans la plupart des cas",
explique Françoise Mohymont. Mais malgré cette optimisation,
la reconnaissance vocale demeure un marché de niche. Selon
le cabinet d'études DeStefanis, le marché des logiciels de
reconnaissance vocale s'élevait à 100 millions de dollars
en 2003. D'après Gartner, ce même marché atteindrait 258
millions de dollars en 2007
La
santé représente 60% des dépenses
en matière de reconnaissance vocale |
Autre chiffre révélateur, le secteur de la santé représente
60% du chiffre d'affaires de la profession. Souvent en déplacement,
les médecins exploitent la reconnaissance vocale afin de retranscrire
les entretiens avec leurs patients. En entreprise, ces logiciels
souffrent d'une mauvaise image héritée des années 1990. "Il
y a eu beaucoup de contre exemples qui ont découragé les entreprises
vis-à-vis de cette technologie", analyse Antoine Kauffeisen.
Poussée par les standards ouverts tels VoiceXML 2.0, les
systèmes de reconnaissance vocale ont pourtant gommé certains
défauts de jeunesse, comme la sensibilité aux bruits ambiants
ou les problèmes d'accents. Reste qu'il n'est pas encore possible
d'appliquer ce système à tout, notamment aux réunions d'entreprise
où le contexte multi-utilisateurs nécessite une rigueur particulière
pour éviter de mélanger les conversations et les intervenants.
Pourtant à terme, la reconnaissance vocale espère gagner
l'entreprise et le grand public. Les éditeurs travaillent
déjà à réduire le temps d'apprentissage pour le rapprocher
du zéro délai. A terme, synthèse et reconnaissance vocale
pourraient même se rencontrer. "La quête du Graal, c'est le
dialogue avec l'utilisateur", résume Antoine Kauffeisen.
|