ANALYSE 
Sommaire Acteurs 
Les technologies de la parole arrivent à maturité
Synthèse et reconnaissance vocale sortent de leurs marchés traditionnels en gommant leurs défauts de jeunesse. Retour sur l'évolution du marché et des produits.   (12/04/2005)
  En savoir plus
 IBM amène l'Open Source sur le terrain de la reconnaissance vocale
Promises à un avenir en or dans les années 1990, les technologies de la parole affichent en 2005 un bilan mitigé. Certes, elles s'introduisent chaque jour de plus en plus dans le quotidien à travers les téléphones portables, les PDA, les serveurs vocaux interactifs… Mais le bilan est loin d'atteindre les espérances des analystes de marché.

Les technologies de la parole regroupent deux secteurs distincts : la synthèse vocale et la reconnaissance vocale, chacun ayant connu un développement propre. La synthèse vocale, au contraire de la reconnaissance vocale, cherche à reproduire une voix humaine à partir d'une combinaison de mots. Contrairement à une liste de sons pré-enregistrés, la synthèse vocale peut adapter son discours en fonction de divers paramètres, l'exemple type étant le serveur vocal.

"Les premiers serveurs vocaux interactifs remontent à 15 ou 20 ans environ. A l'époque, il s'agissait de diffuser des informations générales comme le journal de 20H. Les débuts du serveur vocal interactif offraient à l'appelant de pouvoir naviguer à travers les touches de son téléphone dans un menu", se souvient Anne Lacouberie, responsable marketing de la société de services Prosodie.

L'un des premiers objectifs de la synthèse vocale se résume à simplifier l'accès à l'information de la part de l'utilisateur. Mais les voix de synthèse, à l'époque trop éloignées d'une voix humaine repoussent parfois l'utilisateur. Autre marché traditionnel des technologies de la parole, celui de l'accessibilité. En effet, la parole demeure un moyen simple et efficace de rendre l'information accessible aux personnes handicapées, mais aussi aux personnes âgées.

"Nous sommes passés du stade de robot à celui de speaker" - Acapella
Mais les technologies ont évolué, positionnant la synthèse vocale sur des marchés connexes. En enrichissant leurs bases de sons, les éditeurs de synthèse vocale réussissent ces dernières années à reproduire fidèlement la voix humaine. "Les éditeurs de solutions de synthèse vocales ont atteint la deuxième génération de produits. Nous sommes ainsi passés du stade de robot à celui de speaker", note Antoine Kauffeisen, directeur marketing et communication de l'éditeur Acapella.

Grâce à ces nouvelles fonctionnalités, la synthèse vocale conquiert des parts de marché dans l'automobile, sur les systèmes de GPS mais aussi dans le multimédia et la domotique. "En plus de voix standards disponibles à tous, la synthèse vocale permet de personnaliser sa propre voix. Derrière, l'idée sous-jacente est de conserver l'identité sonore de la société", affirme Françoise Mohymont, ingénieur support technique chez l'éditeur Scansoft.

Et face à des environnements de plus en plus riches en fonctionnalités, la synthèse vocale se propose de simplifier la navigation. "Chez Darty, leurs différents services utilisateurs regroupaient près de 300 numéros d'appels distincts. La notion de portail vocal pousse alors à une logique de synthèse et de reconnaissance vocale. Cela évite que l'utilisateur ne se perde et de son coté, l'entreprise libère de la ressource humaine en automatisant un service", souligne Anne Lacouberie.

Le délai d'apprentissage a été réduit d'une heure à 5 minutes
Seul souci, l'aspect encore trop manichéen du traitement de la voix. "Maintenant que nous offrons une voix quasi-humaine, le client s'attend à davantage d'elle. Par exemple, les résultats sportifs ne doivent pas être énoncés comme des résultats économiques, ce qui est pourtant le cas actuellement. La prochaine génération de produit doit faire passer la synthèse vocale au stade d'acteur, capable de transmettre des émotions", prévoit Antoine Kauffeisen.

Cette maturité de l'offre se constate également sur le marché de la reconnaissance vocale. "Il y a 5 ans, la phase d'apprentissage du logiciel durait une heure pour un taux d'acceptation de 90% par la suite. Avec les dernières versions des logiciels, cette étape ne prend plus que 5 minutes.", ajoute Françoise Mohymont. Avec la réduction du délai d'apprentissage, les éditeurs ont aussi travaillé sur leur base de modèles acoustiques, optimisant les langues disponibles et les accents mais aussi le traitement d'erreurs.

"A l'issue de la phase d'apprentissage, le taux de performance se situe entre 85 et 90% pour une personne normale. Au bout d'une semaine, il s'élève à 99% dans la plupart des cas", explique Françoise Mohymont. Mais malgré cette optimisation, la reconnaissance vocale demeure un marché de niche. Selon le cabinet d'études DeStefanis, le marché des logiciels de reconnaissance vocale s'élevait à 100 millions de dollars en 2003. D'après Gartner, ce même marché atteindrait 258 millions de dollars en 2007

La santé représente 60% des dépenses en matière de reconnaissance vocale
Autre chiffre révélateur, le secteur de la santé représente 60% du chiffre d'affaires de la profession. Souvent en déplacement, les médecins exploitent la reconnaissance vocale afin de retranscrire les entretiens avec leurs patients. En entreprise, ces logiciels souffrent d'une mauvaise image héritée des années 1990. "Il y a eu beaucoup de contre exemples qui ont découragé les entreprises vis-à-vis de cette technologie", analyse Antoine Kauffeisen.

Poussée par les standards ouverts tels VoiceXML 2.0, les systèmes de reconnaissance vocale ont pourtant gommé certains défauts de jeunesse, comme la sensibilité aux bruits ambiants ou les problèmes d'accents. Reste qu'il n'est pas encore possible d'appliquer ce système à tout, notamment aux réunions d'entreprise où le contexte multi-utilisateurs nécessite une rigueur particulière pour éviter de mélanger les conversations et les intervenants.

  En savoir plus
 IBM amène l'Open Source sur le terrain de la reconnaissance vocale
Pourtant à terme, la reconnaissance vocale espère gagner l'entreprise et le grand public. Les éditeurs travaillent déjà à réduire le temps d'apprentissage pour le rapprocher du zéro délai. A terme, synthèse et reconnaissance vocale pourraient même se rencontrer. "La quête du Graal, c'est le dialogue avec l'utilisateur", résume Antoine Kauffeisen.

Yves DROTHIER, JDN Solutions Sommaire Acteurs
 
Accueil | Haut de page
 
 

  Nouvelles offres d'emploi   sur Emploi Center
Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Toutes nos newsletters