On dispose donc potentiellement d’une énorme base d’informations audiovisuelles. Cependant, les outils pour les appréhender sont encore en développement : pour exploiter des documents audiovisuels, il est nécessaire de leur adjoindre des informations supplémentaires permettant leur indexation, leur enrichissement. Ces informations supplémentaires, appelées génériquement métadonnées, peuvent avoir un degré interprétatif plus ou moins fort (d’un sous-titrage reprenant exactement les dialogues d’un film jusqu’à une critique totalement personnelle d’un film) et une granularité temporelle plus ou moins importante (du sous-titre lié à un fragment spécifique du film à la fiche documentaire décrivant l’ensemble du film).
Les sites web de partage de vidéo tels que Dailymotion ou Youtube permettent aux utilisateurs d’associer des commentaires à chaque vidéo, mais non à des fragments de vidéo. De plus, ces commentaires ne sont pas structurés, ce qui en rend la réexploitation difficile. À l’inverse, certains outils spécialisés utilisés en recherche permettent d’annoter précisément des fragments de vidéo avec des informations très structurées, mais leur utilisation est ardue et contrainte en termes de possibilités d’annotations et de visualisations.
Pour faciliter l’analyse et le commentaire de documents audiovisuels, il est nécessaire de fournir un moyen flexible d’associer des informations à des fragments de la vidéo, ainsi que de permettre de les structurer pour faciliter leur exploitation ultérieure (recherche, visualisation).
Comme développé dans (Aubert-Prié, 2005), les nouveaux documents générés à partir des métadonnées associées aux vidéos peuvent être considérées comme des hypervidéos, i.e. des documents hypermédias avec une forte composante audiovisuelle. La construction et l’échange de ces hypervidéos permet d’effectuer un travail collaboratif sur des documents audiovisuels. Il est donc nécessaire de fournir des outils permettant aux utilisateurs de définir leurs propres métadonnées associées aux documents audiovisuels, ainsi que leurs propres visualisations de ces métadonnées.
Cette appropriation des données et de leurs visualisations, pour son travail propre ou pour un partage ou un exposé avec d’autres personnes, peut être le cadre d’une véritable innovation par le bas, permettant de développer de nouvelles pratiques d’interaction avec les documents audiovisuels.
Le projet Advene
Les objectifs
Le projet Advene vise à développer une plate-forme ouverte pour la conception des hypervidéos et la navigation dans celles-ci, permettant 1/ d’annoter des documents audiovisuels, i.e. d’associer des informations à des fragments spécifiques de la vidéo ; 2/ de fournir des modes de visualisations améliorés de la vidéo se basant sur la structure d’annotation ; 3/ d’échanger les annotations et les modes de visualisations associés indépendamment du document audiovisuel original, sous la forme d’unités documentaires appelées recueils.
Illustration 1: Le principe général d’Advene
L’objectif du projet est de favoriser l’émergence d’usages innovants des documents audiovisuels. Il permet aux utilisateurs d’expérimenter rapidement de nouvelles idées utilisant ou réutilisant des métadonnées, en intégrant trois étapes du cycle de vie des métadonnées : leur création et évolution, leur visualisation et leur échange.
Le principe général d’Advene, comme le montre la figure 1, est de transmettre et d’utiliser en un seul document, appelé recueil, à la fois les métadonnées et la spécification de leurs visualisations. Le recueil peut être partagé de différentes manières (courriel, téléchargé depuis un serveur web…), indépendamment du document audiovisuel lui-même, et réutilisé par d’autres personnes. Cette utilisation peut se résumer à une simple utilisation des métadonnées pour naviguer dans le document audiovisuel ou à la consultation de documents hypermédias générés à partir des visualisations spécifiées par l’auteur du recueil.
Cependant, l’utilisateur possédant une copie des métadonnées et des définitions de visualisations, il peut également en envisager une exploitation plus active, en modifiant ou enrichissant les métadonnées ou leurs visualisations. Il peut ainsi ajouter de nouvelles métadonnées, les visualiser à travers des visualisations préexistantes, ou créer de nouvelles visualisations créant ainsi d’autres modes de représentation.
Considérons par exemple une communauté de cinéphiles discutant du film de Murnau « Nosferatu », et souhaitant analyser précisément la manière dont le sentiment d’horreur est rendu. Une des personnes place sur son serveur web un recueil proposant un découpage en plans du film et une sélection des séquences intéressantes. Afin de faciliter leur visualisation, il définit également une vue hypertexte commentant les séquences les plus intéressantes, avec des liens directs permettant de les visualiser, proposant ainsi une sorte de chapitrage sélectif. Un autre utilisateur étend ce recueil en indexant les panneaux d’intertitre apparaissant dans le film, permettant ainsi une recherche textuelle dans leur contenu.
Il définit de plus une visualisation améliorée de la vidéo affichant sous la forme de sous-titres la traduction française du contenu des panneaux. Le nouveau recueil contenant ces nouvelles métadonnées et visualisations est alors mis à disposition de la communauté sur le site web, et sert de référence pour les discussions ultérieures. Dans tous ces échanges, seules les métadonnées et la spécification de leur visualisation sont échangées par les participants, chacun possédant sa propre copie du film.
Pour fournir ces possibilités, le projet Advene définit un modèle de données basé sur le modèle des hypervidéos décrit dans (Aubert-Prié 2005). Le modèle est composé de trois principaux éléments1 : la structure d’annotation (des annotations et des relations, structurées), les vues (définissant la manière de présenter la structure d’annotation conjointement avec le document audiovisuel) et les requêtes (permettant de sélectionner dynamiquement des éléments du modèle). Les annotations sont des informations de toute nature (du texte simple pour les besoins élémentaires et la lecture active, des commentaires audio, des documents PDF ou des images, etc) qui sont liées à un fragment spatio-temporel spécifique du document audiovisuel, qui seront ensuite utilisées pour produire des visualisations. Comme nous le verrons par la suite, les vues sont personnalisables, voire complètement définissables, par l’utilisateur. Enfin, les requêtes fournissent un moyen d’effectuer des recherches au sein de la structure d’annotation.
Architecture globale
Le prototype Advene est un logiciel libre (licence GNU GPL), multiplateformes (Linux, Mac OS X, Windows), qui réutilise de nombreux composants existants (lecteur vidéo VLC, serveur web, langage de templates). Le prototype ainsi que des recueils d’exemples sont librement téléchargeables depuis le site http://advene.org/. Les exemples illustratifs dans cet article sont tirés du recueil de démonstration Nosferatu, que le lecteur est invité à télécharger afin d’explorer les possibilités d’Advene.
L’application Advene intègre et contrôle un lecteur vidéo, ainsi qu’un serveur web permettant de transmettre à des navigateurs web standards les documents XHTML générés. Un gestionnaire d’événements interne surveille les différents événements intervenant durant l’utilisation de la plate-forme, et peut déclencher diverses actions sur cette base, fournissant ainsi l’infrastructure permettant de définir des vues dynamiques.
Advene peut utiliser différents lecteurs vidéos, qui peuvent ne pas tous proposer les différentes fonctionnalités nécessaires à un rendu enrichi des hypervidéos. Le principal lecteur utilisé,VLC2, est un lecteur vidéo multiplateformes et flexible, qui permet de lire quasiment tout format de vidéo sur tout médium (fichier vidéo, DVD, flux vidéo). Nous l’avons étendu par un module de contrôle, ainsi que par des fonctionnalités supplémentaires telles que le rendu de graphiques (au format SVG) sur la vidéo3.
La plate-forme Advene favorise l’émergence d’utilisations novatrices de métadonnées audiovisuelles. Son système de rendu se basant sur des modèles et la définition de vues dynamiques à base de règles, qui seront décrits plus précisément par la suite, permettent de spécifier rapidement de nouvelles représentations de métadonnées. Des tâches ou visualisations plus complexes peuvent être programmées en python, le langage d’implémentation de la plate-forme, et intégrées dans l’application via une infrastructure de greffons (plugins).
Cette plate-forme permet donc d’étudier et d’expérimenter différentes pratiques liées à la lecture active de documents audiovisuels, dont la création d’annotations et leur visualisation de diverses manières.
Création d’annotations
Les annotations peuvent être créées suivant plusieurs modalités. Tout d’abord, les données peuvent être importées depuis des applications tierces telles que des programmes d’analyse automatique. En effet, la plate-forme Advene peut intégrer des informations de toute nature liées à des fragments spécifiques du document audiovisuel. À travers l’infrastructure de plugins, de nouveaux formats d’import de données peuvent être définis et proposés à l’utilisateur. Il est ainsi aisé d’intégrer et tester de nouveaux algorithmes d’analyse automatique, en utilisant les fonctionnalités d’Advene pour visualiser et valider les résultats.
De plus, des assistants d’annotation peuvent guider la création des métadonnées, en fournissant des données incomplètes ou imprécises que l’utilisateur doit finaliser, de manière plus ou moins interactive. Ainsi, un pré-découpage temporel automatique peut être utilisé comme base de travail par l’utilisateur, et amélioré manuellement.
Enfin, les annotations peuvent être créées totalement manuellement, en utilisant le composant de prise de notes au vol, celui de gestion de signets ou encore la ligne de temps. La prise de notes, par exemple, offre un moyen simple et rapide de produire des données textuelles liées temporellement au film, en prenant simplement des notes lors de la visualisation du film. Des marques de temps sont automatiquement (ou à la demande) insérées dans le texte, permettant ainsi de générer des annotations situées temporellement dans le flux.
Quelle que soit la modalité de création utilisée, les annotations créées peuvent être précisées en modifiant leur contenu, leur type (en catégorisant une annotation générique dans une catégorie plus spécifique) ou leurs bornes temporelles (en les alignant sur d’autres annotations, en les ajustant manuellement, etc).
Visualisations
Les métadonnées sont créées pour enrichir les documents audiovisuels avec des informations supplémentaires, permettant ainsi d’y naviguer ou d’y effectuer des recherches plus efficacement. Cependant, obtenir l’information adéquate ne représente qu’une partie de la tâche : il est également nécessaire de visualiser l’information obtenue, suivant des modalités adaptées à l’activité en cours. Il est donc important de fournir différentes manières de visualiser l’information, que l’utilisateur peut de plus personnaliser ou redéfinir pour les adapter à ses besoins. La version actuelle d’Advene offre trois types de vues : les vues ad-hoc (d’interface), les vues statiques (documents XHTML générés) et les vues dynamiques (lecture enrichie du document audiovisuel).
Illustration 2: Interface générale d’Advene
Retours d’utilisation
La flexibilité de la plate-forme la rend utilisable dans divers domaines d’application, de l’enseignement de langues à la critique de cinéma ou à l’analyse de corpus de recherche. Voyons rapidement quelques exemples d’utilisations actuelles d’Advene.
Une enseignante en langues l’utilise de manière simple pour préparer des travaux sur des films. Elle peut définir simplement une table des matières lui permettant d’accéder directement aux parties intéressantes du film. Les fonctionnalités de vues dynamiques lui permettent également de mettre le film en pause automatiquement à certains instants, afin de pouvoir poser des questions à ses élèves. Des enseignants de la cellule CERISE du CRDP de Lyon, qui travaillent sur l’éducation au cinéma au collège et lycée, utilisent également Advene comme outil d’exploration et de préparation de leurs interventions, accompagnés par un membre de notre équipe. L’objectif à terme est d’utiliser plus largement Advene lors de la réalisation des interventions.
Dans le cadre du projet ANR Cinelab, mené conjointement avec l’IRI7 et le Forum des Images, Advene a servi d’outil de prototypage de nouvelles modalités d’interaction ou de rendu d’information lors de séances de travail avec des résidents critiques de cinéma. Cette collaboration entre l’équipe d’Advene et les critiques de cinéma a notamment permis d’améliorer les aspects de prise de notes, ainsi que de commencer un travail sur les différentes visualisations appropriés au domaine de la critique.
Enfin, des chercheurs en sociologie du laboratoire RUC (Danemark) utilisent Advene pour analyser les enregistrements vidéos qui constituent leur corpus. Ce sont pour l’instant les utilisateurs, hors équipe Advene, qui tirent le plus parti des différentes fonctionnalités de l’outil : prise de notes, structuration des annotations, recherche d’informations pertinentes, définition de visualisations.
Enjeux abordés
Le projet Advene et sa matérialisation dans le prototype du même nom permettent d’aborder différentes pistes de réflexion :
1/ la question du public visé et apte à s’emparer d’un nouvel outil pour construire de nouvelles pratiques;
2/ la souplesse nécessaire pour permettre de développer des pratiques innovantes (qui pourra entrer en conflit avec la nécessaire convivialité d’un outil s’adressant à un large public) ;
3/ les enjeux soulevés par le projet qui dépassent largement des aspects techniques ou ergonomiques et posent également des questions sur le droit d’auteur.
1/ Le projet vise plusieurs catégories d’utilisateurs, s’inspirant ainsi de l’expérience du web : tout d’abord, une catégorie de « cinéphiles informaticiens », intéressés par l’objet du projet (l’échange d’informations sur des films) et ayant les capacités techniques leur permettant de s’emparer d’un outil pour l’améliorer (le prototype étant sous une licence libre GNU GPL). Ensuite, des « amateurs éclairés », non programmeurs, mais que l’absence d’interfaces graphiques d’édition ne rebute pas. Ces personnes sont capables de procéder par imitation (copier/coller de directives HTML par exemple), en utilisant pour modèle des documents préexistants qui leur semblent répondre au moins en partie à leurs desiderata.
Enfin, des « amateurs utilisateurs », qui ont besoin d’outils graphiques d’édition pour créer de nouvelles visualisations ou de nouvelles structures d’annotation, ou réutiliser des définitions existantes. À travers cette démarche progressive, nous souhaitons voir émerger de nouvelles pratiques en termes de manipulation des médias audiovisuels, en fournissant une « boîte à outils » permettant de rendre plus accessible la conception de ces nouveaux modes d’interaction.
2/ D’autres applications similaires existent, mais sont souvent liées à un domaine d’utilisation particulier tel que l’étude des gestes en interaction humaine (Kipp, 2004), l’édition de sous-titres8, etc. Ce lien permet d’intégrer dans la conception de l’application en général, et de l’interface en particulier, des contraintes implicites liées aux spécificités du domaine d’application. Dans la conception du projet Advene, nous avons cherché à rester le plus générique possible, de manière à offrir une plate-forme polyvalente capable de s’adapter à différentes tâches (Aubert-Prié, 2007). Cette polyvalence assumée se révèle parfois gênante pour l’adoption de l’application : d’une part, les utilisateurs peuvent être perdus au milieu de la variété d’outils disponibles et ne pas savoir lequel est le plus adapté à leur tâche. La plupart des outils polyvalents présentent le même problème, qui ne peut se résoudre que par des améliorations ergonomiques : il est nécessaire de porter une grande attention à l’accompagnement des utilisateurs ainsi qu’à la qualité de la documentation.
D’autre part, la généricité et la souplesse de l’application rendent plus difficile la conception d’interfaces dédiées. La structure des données, leurs contenus, ne sont pas contraints. Il n’est donc pas possible de fournir de base des interfaces effectuant de la validation automatique des données, ou de la présentation. Pour cela, il est nécessaire d’apporter des informations supplémentaires (des métadonnées sur les métadonnées) indiquant les contraintes existantes, spécifiques à chaque domaine d’application. Mais l’expression de ces contraintes est elle-aussi source de complications. Le compromis ergonomie/polyvalence n’est donc pas aisé à trouver. Là encore, l’implication de différentes catégories d’utilisateurs doit permettre de faire évoluer l’interface en répondant dans la mesure du possible aux deux demandes.
3/ Comme le souligne Von Hippel (Von Hippel, 2005), la dématérialisation liée à la numérisation des documents permet aux utilisateurs de devenir acteurs de l’innovation, et d’apporter eux-mêmes des réponses aux questions ou problème qu’il se posent. Cependant, cette possibilité d’innovation peut aller à l’encontre de principes légaux ou commerciaux établis, en particulier dans le domaine de l’audiovisuel9 : quelle est la limite dans les manipulations que l’on peut faire subir à un document audiovisuel ?
Le fait de pouvoir spécifier des transformations (remontage, sous-titrage, etc.) à apporter à un document audiovisuel lors de la visualisation sans modifier le document lui-même entre-t-il en conflit avec la notion de droit d’auteur et d’intégrité de l’œuvre ? La notion même de document est affectée, en ce que la source des informations et leur rendu/visualisation finale peuvent faire l’objet de diverses transformations. Le projet Advene, de par ses principes, illustre ces différents problèmes. Le cadre légal évolue régulièrement, notamment par le biais des nouveaux usages. En contribuant à l’émergence de nouveaux usages, le projet Advene peut participer à ce mouvement.
Conclusion
Le projet Advene offre, dans le domaine de la lecture active de documents audiovisuels, une plate-forme flexible permettant l’expérimentation de nouvelles formes d’interaction avec les documents audiovisuels et leurs métadonnées. Cette expérimentation passe notamment par la possibilité offertes aux utilisateurs de définir eux-mêmes leurs propres structures d’annotations et leurs propres manières de les visualiser, ce qui veut favoriser l’émergence de nouvelles pratiques.
Les domaines d’utilisation du prototype sont divers : de l’échange de commentaires et de critiques de cinéphiles amateurs à l’indexation et à la recherche dans des corpus audiovisuels dans le cadre de la recherche, jusqu’à l’exploitation pédagogique en cours de langue ou toute autre matière où le support audiovisuel peut être exploité.
Ce projet mené depuis plusieurs années a donné lieu à des expérimentations avec des publics divers (chercheurs, enseignants, étudiants), et plus récemment avec des critiques de cinéma dans le cadre du projet ANR Cinelab. Ces expériences nous ont permis de guider les évolutions de la plate-forme, ainsi que de valider des pistes de recherche sur les principes de l’interaction avec des documents audiovisuels. Les développements se poursuivent suivant différents axes tels que l’annotation et l’interaction croisée de plusieurs documents audiovisuels, les pratiques collaboratives synchrones ou asynchrones, ou encore l’intégration des traces d’utilisation pour fournir une assistance à l’utilisateur.
Communication scientifique Colloque Ludovia 2008 par Olivier AUBERT – Pierre-Antoine CHAMPIN – Yannick PRIÉ (extraits)
LIRIS (UMR 5205 CNRS)
Université Lyon I