Nous avons interrogé deux experts de la recherche vidéo pour en savoir plus sur le sujet et connaître leur vision sur les enjeux de ces technologies. Vincent Brunie, responsable du thème de recherche "Description des Contenus Audiovisuels" à l'INA, et Suranga Chandratillake, co-fondateur du moteur spécialisé Blinkx TV, ont accepté de répondre à nos questions…
Vincent Brunie – Responsable du thème de recherche "Description des Contenus Audiovisuels" – Institut National de l'Audiovisuel (http://www.ina.fr/)
Pouvez-vous décrire les projets de l'INA concernant les outils de recherche vidéo ?
La recherche vidéo est le métier principal de l'INA, l'institut en fait depuis 1974 en s'appuyant sur des descriptions manuelles de ses documents télévisuels et radiophoniques. Des travaux de recherche sur la description automatique de la vidéo et de l'audio ont été engagés à l'INA en 1998 et aujourd'hui de nombreuses initiatives affichent la volonté de mettre au point à court terme un moteur de recherche audiovisuel.
L'INA participe très activement à ces travaux, d'une part au niveau des activités de recherche, par exemple par sa participation au réseau d'excellence européen K-Space (Knowledge Space of Shared Technology and Integrative Research to Bridge the Semantic Gap), d'autre part sur un versant plus industriel, par exemple dans le projet Infom@gic du pôle de compétitivité "Image, Multimédia et Vie Numérique" ou dans le projet Quaero qui est en cours d'élaboration entre l'Agence de l'Innovation Industrielle (AII) et le Ministère Fédéral de l'Economie et du Travail allemand (BMWA).
Quelles technologies de reconnaissance video et d'indexation ont été développées par l'INA ?
En tant qu'utilisateur et fournisseur de services, l'INA travaille principalement sur les aspects applicatifs des technologies de recherche multimédia. Nous effectuons également des travaux sur les langages de description de l'audiovisuel ainsi que sur les technologies de recherche par signature d'image.
Travaillez-vous avec des partenaires sur ces projets ?
Tous ces projets sont menés en partenariat avec les acteurs majeurs de la recherche et de l'industrie multimédia en France et en Europe, ainsi qu'avec des PME innovantes.
Quelle sera la participation de l'INA dans le moteur de recherche européen Quaero ?
Dans Quaero, l'INA fournira des contenus pour les expérimentations et mènera des travaux correspondant aux problèmes que l'Institut se pose, à savoir sur la meilleure façon d'organiser ses fonds de façon à les rendre le plus accessibles possibles.
Qu'attendez-vous de ce nouveau projet piloté par l'Agence pour l'innovation industrielle ?
Le projet Quaero réunit dans une structure unique les principaux industriels, chercheurs et utilisateurs potentiels dans une perspective industrielle, cela devrait permettre une meilleure orientation des préoccupations des chercheurs et des industriels vers les besoins des utilisateurs. C'est une perspective de rencontre fructueuse entre les usages, les technologies et les perspectives industrielles.
Quels sont les principaux problèmes et les grands enjeux qui se posent pour le développement d'un outil de recherche video ?
Les difficultés qui se posent pour imaginer un "moteur de recherche audiovisuel" sont nombreuses. Il me semble que la plus importante est qu'on ne sait pas encore aujourd'hui à quoi un tel moteur pourrait ressembler pour l'utilisateur. En effet, à part dans certains cas particuliers, les requêtes que l'on voudrait effectuer sur des vidéos s'expriment à l'aide de mots. Or, il y a loin de l'image au mot et les technologies de reconnaissance automatique d'image sont encore loin de fournir des mots ayant du sens pour l'utilisateur. Pour "trouver des mots dans les vidéos", on en est encore aujourd'hui très démuni : les technologies les plus abouties sont celles qui transcrivent les paroles prononcées dans la bande son, mais les résultats sont encore insuffisants pour pouvoir être exploités dans un environnement ouvert comme celui d'un moteur de recherche grand public. C'est par exemple le problème auquel est confronté Google avec son moteur expérimental (http://video.google.com/) qui exploite les transcriptions, les sous-titres et les descriptions fournis par les chaînes de télévision. Les résultats sont complètement dépendants de ce que l'on a fourni comme textes en plus de la vidéo, et non de ce que le moteur est capable d'y retrouver. Contrairement aux moteurs de recherche textuels, le rapport entre la requête et le résultat fourni n'est pas clair, on ne sait pas toujours très bien pourquoi le moteur a renvoyé tel ou tel résultat. Ce problème est corrélé à la difficulté qu'il y a présenter efficacement les résultats des requêtes, et il est au total très difficile pour l'utilisateur de s'y retrouver.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).