RTFlash

Vers l'analyse intelligente des flux numériques

Texmex, l'équipe rennaise de l'Inria  travaillant à une meilleure exploitation des documents multimédia, vient de rassembler plusieurs de ses résultats de recherche dans TexMix, un démonstrateur technologique qui préfigure les nouvelles fonctionnalités de la vidéo à la demande.

Pour cette démonstration, les chercheurs ont d'abord enregistré un mois de journal télévisé. “À partir de ce corpus de 30 fichiers, TexMix a extrait de l'information de manière complètement automatique et composé une interface permettant de naviguer dans ces contenus.”  Les différents reportages apparaissent sous forme de vignettes cliquables disposées sur une ligne chronologique. Dès qu'une vidéo est lancée, un sous-titre défile. “Ce flux de mots sans ponctuation illustre notre premier axe de recherche : la transcription de la parole. La segmentation thématique repose non pas sur l'image mais sur la bande son. Nous détectons les ruptures lexicales. Nous repérons le moment où le flux de mot passe, par exemple, du registre sportif à celui de la politique. C'est sur cette approche innovante que repose notre façon de décomposer le journal en une série de séquences.”

Les algorithmes utilisés ici résultent des travaux de Guillaume Gravier sur la reconnaissance de parole. Délinéariser ainsi à partir de la piste audio s'avère très pratique pour la suite. Car cela permet ensuite de décliner de nombreuses fonctions de navigation basées sur le contenu même des reportages. “Quand on passe le curseur au-dessus d'une vignette, des mots clés s'affichent : catastrophe aérienne, Indonésie, brouillard... Le spectateur sait immédiatement de quoi il est question. À partir de ces mots clés, nous interrogeons ensuite des moteurs de recherche comme Google, Bing ou Yahoo. Nous récupérons par exemple les 100 premières pages de résultats. Nous retraitons cette liste pour affiner la pertinence.

Nous produisons ainsi une sélection de liens web qui présentent un rapport direct ou fournissent un complément d'information. De quoi permettre à l'utilisateur d'aller plus loin si besoin.” Une fois le contenu dûment identifié, TexMix peut désormais récupérer d'autres vidéos sur le même sujet. L'application offre ainsi un mode de navigation hypervidéo. Les reportages en rapport s'affichent instantanément dans la ligne chronologique sous forme de vignettes cliquables. D'un glissement de curseur, l'utilisateur peut choisir d'étendre ou de restreindre la période ciblée. Une semaine au lieu d'un mois complet par exemple.

Deuxième axe de recherche : la reconnaissance d'entités nommées. Les noms propres comme les patronymes ou les toponymes peuvent s'avérer difficiles à détecter. ‘Barak Obama’ peut se confondre avec ‘baraque aux Bahamas’. “D'où le besoin de méthodes robustes comme celles proposées par Christian Raymond et Julien Fayolle. Une fois ces entités correctement identifiées, nous savons de qui on parle mais aussi de quel endroit. Cela va permettre une géolocalisation en temps réel. Par le biais d'une Google Map, TexMix peut visualiser instantanément les lieux mentionnés dans le reportage.” Il offre ainsi une autre modalité de navigation dans le contenu.

À tout cela s'ajoute une fonction permettant la comparaison d'images. “Prenons l'exemple d'un graphique montrant un sondage électoral. L'utilisateur pourrait vouloir le comparer à de précédentes enquêtes faites durant la campagne. Nous cherchons donc des graphiques ressemblant au premier.” D'un clic sur un simple bouton, TexMix s'en va fouiller la base à la recherche d'images similaires. Les vignettes correspondantes s'affichent en un clin d'oeil. “Sept millisecondes suffisent pour extraire ces images dans une base qui en compte 1,5 million. Nous avons même une autre démonstration qui fonctionne avec 10 millions d'images.” Cette rapidité à traiter de très grandes bases constitue la marque de fabrique des récents algorithmes développés par le chercheur Hervé Jégou. C'est le troisième axe de recherche illustré par l'application.

La capacité d'absorber ainsi de gros volumes s'avère incontournable pour prétendre pouvoir exploiter automatiquement les archives audiovisuelles accumulées au fil des décennies.

Inria

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

  • Intel dote une puce de l'odorat

    Intel dote une puce de l'odorat

    En partenariat avec des chercheurs de l'Université de Cornell, le groupe d'informatique neuromorphique d'Intel a construit un algorithme mathématique qui imite les systèmes olfactifs observés chez ...

  • Prédire l'évolution des pathologies grâce à l'informatique

    Prédire l'évolution des pathologies grâce à l'informatique

    Lors d’une infection, lorsque les cellules immunitaires rencontrent les bactéries, plusieurs issues sont possibles. Soit le système immunitaire détruit les agents pathogènes ; soit les agents ...

  • L’ADN : le stockage ultime de l'information ?

    Edito : L’ADN : le stockage ultime de l'information ?

    Le Web n’a que trente ans mais il a déjà aussi profondément transformé notre monde que l’invention de l’imprimerie, en 1450, ou celle du téléphone (1876), de la radio (1895 ), de la télévision ...

Recommander cet article :

back-to-top