RTFlash

Les technologies de la parole arrivent à maturité

Promises à un avenir en or dans les années 1990, les technologies de la parole affichent en 2005 un bilan mitigé. Certes, elles s'introduisent chaque jour de plus en plus dans le quotidien à travers les téléphones portables, les PDA, les serveurs vocaux interactifs... Mais le bilan est loin d'atteindre les espérances des analystes de marché. Les technologies de la parole regroupent deux secteurs distincts : la synthèse vocale et la reconnaissance vocale, chacun ayant connu un développement propre. La synthèse vocale, au contraire de la reconnaissance vocale, cherche à reproduire une voix humaine à partir d'une combinaison de mots. Contrairement à une liste de sons pré-enregistrés, la synthèse vocale peut adapter son discours en fonction de divers paramètres, l'exemple type étant le serveur vocal.

Les technologies ont évolué, positionnant la synthèse vocale sur des marchés connexes. En enrichissant leurs bases de sons, les éditeurs de synthèse vocale réussissent ces dernières années à reproduire fidèlement la voix humaine. "Les éditeurs de solutions de synthèse vocales ont atteint la deuxième génération de produits. Nous sommes ainsi passés du stade de robot à celui de speaker", note Antoine Kauffeisen, directeur marketing et communication de l'éditeur Acapella.

Grâce à ces nouvelles fonctionnalités, la synthèse vocale conquiert des parts de marché dans l'automobile, sur les systèmes de GPS mais aussi dans le multimédia et la domotique. Et face à des environnements de plus en plus riches en fonctionnalités, la synthèse vocale se propose de simplifier la navigation. "Chez Darty, leurs différents services utilisateurs regroupaient près de 300 numéros d'appels distincts. La notion de portail vocal pousse alors à une logique de synthèse et de reconnaissance vocale. Cela évite que l'utilisateur ne se perde et de son coté, l'entreprise libère de la ressource humaine en automatisant un service", souligne Anne Lacouberie.

Cette maturité de l'offre se constate également sur le marché de la reconnaissance vocale. "Il y a 5 ans, la phase d'apprentissage du logiciel durait une heure pour un taux d'acceptation de 90% par la suite. Avec les dernières versions des logiciels, cette étape ne prend plus que 5 minutes.", ajoute Françoise Mohymont. Avec la réduction du délai d'apprentissage, les éditeurs ont aussi travaillé sur leur base de modèles acoustiques, optimisant les langues disponibles et les accents mais aussi le traitement d'erreurs. "A l'issue de la phase d'apprentissage, le taux de performance se situe entre 85 et 90 % pour une personne normale. Au bout d'une semaine, il s'élève à 99 % dans la plupart des cas", explique Françoise Mohymont.

Poussés par les standards ouverts tels VoiceXML 2.0, les systèmes de reconnaissance vocale ont gommé certains défauts de jeunesse, comme la sensibilité aux bruits ambiants ou les problèmes d'accents. Reste qu'il n'est pas encore possible d'appliquer ce système à tout, notamment aux réunions d'entreprise où le contexte multi-utilisateurs nécessite une rigueur particulière pour éviter de mélanger les conversations et les intervenants. Pourtant à terme, la reconnaissance vocale espère gagner l'entreprise et le grand public. Les éditeurs travaillent déjà à réduire le temps d'apprentissage pour le rapprocher du zéro délai.

JDNet

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top