RTFlash

Avancée majeure en reconnaissance vocale

Une équipe de Microsoft Research, spécialisée en intelligence artificielle, annonce avoir accompli une avancée majeure en matière de reconnaissance vocale, en concevant un système capable de transcrire une conversation aussi bien qu’un professionnel humain.

Microsoft affirme avoir réalisé une « performance historique » avec son système de reconnaissance vocale qui transcrit la parole conversationnelle aussi bien que des humains spécialisés dans cet exercice. Pour confirmer cette avancée, l'équipe d'Harry Shum a demandé à des transcripteurs professionnels de travailler à partir de la base de données Switchboard.

Elle a été créée dans les années 1990 par le National Institute of Standards and Technology (NIST) afin de servir de maître-étalon aux travaux sur la reconnaissance vocale. Switchboard contient des échantillons de conversations téléphoniques en anglais, espagnol et chinois mandarin, qui ont l'avantage de recréer des conditions réelles où les gens peuvent parfois marmonner, bafouiller, tousser, s'éclaircir la voix...

Confronté à ce test, le logiciel de reconnaissance vocale de Microsoft a obtenu un taux d'erreur de 5,9 % qui, selon le géant nord-américain, est, d'une part, égal à celui que les transcripteurs humains ont atteint et, d'autre part, le taux le plus bas jamais enregistré sur Switchboard.

Pour réaliser cette performance, l'équipe de Microsoft Research s'est appuyée sur un réseau neuronal d'apprentissage profond, à l'instar de Google qui a récemment fait de gros progrès en matière de traduction instantanée grâce à cette méthode. Du côté de Microsoft, l'une des clés de la réussite tient à l'optimisation du fonctionnement de l'infrastructure de son IA nommée Computational Network Toolkit (CNTK).

Cette plate-forme d'apprentissage profond, par ailleurs disponible en open source viaGitHub, peut exécuter ses algorithmes sur plusieurs ordinateurs équipés de processeurs graphiques dont la capacité à traiter des centaines de milliards d'opérations par seconde a joué un rôle déterminant dans l'avènement des réseaux neuronaux ces dernières années.

L'intelligence artificielle de Microsoft est capable de rapprocher ces deux mots et pour le coup d'être nettement plus rapide dans son traitement. La firme nord-américaine prévoit d'exploiter cette technologie dans sa console de jeu vidéo Xbox, avec l'assistant virtuel Cortana qui est intégré à ses smartphones et ordinateurs Windows 10 ainsi que pour des logiciels de transcription vocale en texte.

Malgré cette percée majeure, il ne s'agit que d'une étape. En effet, Microsoft Research explique que ses spécialistes vont désormais s'atteler à faire fonctionner leur système de reconnaissance vocale dans diverses conditions réelles, avec notamment un bruit de fond élevé (circulation automobile, brouhaha d'une fête...). Ils veulent également que leur IA soit en mesure de reconnaître différents types de voix en fonction de l'âge ou de l'accent mais aussi d'identifier chaque interlocuteur lorsque plusieurs personnes s'expriment en même temps.

Article rédigé par Georges Simmonds pour RT Flash

Cornell

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top