Archives et IA

Il y a des milliards de photos et de pictogrammes. Chaque film sur pellicule est une série de 24 images par seconde sur un négatif argentique. La quantité de documents photographiques existants aujourd’hui dans la mémoire numérique mondiale est faramineuse. Que ce soit en JPEG, en TIFF, en DPX ou en raw. Un des problèmes auxquels nous sommes tous confrontés est le classement. Comment retrouver la photo ou l’image que nous cherchons. C’est un problème crucial pour les gestionnaires de fonds d’archives.

L’intelligence artificielle va nous donner un coup de main. Comme votre Facebook reconnaît certains de nos amis sur les photos que vous postez, l’IA peut identifier n’importe qui sur à peu près n’importe quelle image.

Plutôt que d’identifier un milliard de chinois avec des caméras de surveillance, nous allons développer des programmes qui reconnaîtront les visages qui se répètent souvent dans une bobine, dans un dossier, dans les archives d’une année, dans un fonds d’archives entier. Le programme demandera à l’éditeur: “Qui est cette personne? J’ai constaté la présence de ce visage dans 4.500 des images de cette bobine de 15 minutes.” L’éditorialiste répondra qu’il s’agit de Marcello Mastroianni, et en profitera pour indiquer à l’IA que la magnifique jeune femme à ses côtés est Sofia Loren.

Quelques minutes plus tard, l’IA annoncera que dans la même bobine il y a 2.700 photogrammes sur lesquels Sofia Loren est visible.

Deux heures plus tard, l’IA annoncera qu’il y a encore 5.000 images avec Mastroianni et Loren sur toute la matière numérisée le même jour.

Une semaine plus tard, c’est 41 minutes d’images de Sofia Loren à différentes époques que l’IA aura retrouvées, dans la totalité d’un fonds d’archives. Le développement de ce genre d’outil n’est pas simple, mais très certainement pas impossible. Les briques existent, il suffit de les assembler et de donner au programme les bonnes informations pour ses recherches. L’IA n’est pas vraiment intelligente. Elle est juste très, très rapide. Et elle applique les algorithmes qui lui ont été destinés. Nous pouvons la maîtriser, ce n’est pas réservé à la Silicon Valley.

Les possibilités de la reconnaissance faciale sont immenses et encore peu envisagées. Un programme adapté tournant sur un serveur puissant et ayant accès à une grande quantité d’images renseignera les occurrences les plus nombreuses. Tel chef d’état, tel premier ministre, tel champion sportif ou vedette du cinéma. Même si ils n’ont jamais été détectés par les éditorialistes. Et peut-être retrouvera-t-on dans un fonds d’archives d’un pays méditerranéen des images de Sofia Loren entretenant une liaison secrète avec Jean Gabin sur les plages de la Méditerranée.

L’IA ne fait pas que reconnaître les visages. Elle est capable de reconnaître les bâtiments, les paysages et les villes dont on lui aura fourni les références. L’indexation automatique assistée par IA présente des possibilités encore insoupçonnées. Elle ne remplacera pas l’intelligence des éditorialistes, elle la complétera et les rendra beaucoup plus puissants, plus rapides et plus efficaces.

Archives film vs archives vidéo

archives Reyers

Le support film est un support difficile à manipuler, dans l’obscurité totale tant qu’il n’a pas été chimiquement développé. Il est onéreux, il s’agit de grains d’argent photosensibles appliqués sur un support d’acétate de cellulose.

L’image n’est pas visible immédiatement, il faut d’abord faire réagir la pellicule avec différent produits chimiques (révélateur, fixateur, blanchiment) pour obtenir un négatif stabilisé qui n’est plus photosensible et qui peut-être tiré sur une pellicule positive pour être projeté.

Ce processus est long, aléatoire (les concentrations et stabilités des bains de développement influencent beaucoup le résultat), onéreux, artisanal et difficile (il faut charger et décharger les caméras dans l’obscurité absolue).

La conséquence de tout cela est évidemment qu’on tourne avec de parcimonie. Si le sujet en vaut la peine, et uniquement lorsqu’on est sûr de soi.

L’arrivée de la vidéo, qui permet une vision immédiate, dont le support est effaçable et réutilisable et qui est fiable dans ses résultats, va changer complètement la donne. On va tourner beaucoup plus et le rapport entre le nombre d’heures d’archives qui seront conservées et leur intérêt intrinsèque va fortement diminuer. Les archives film sont beaucoup plus précieuses, beaucoup plus fragiles et beaucoup plus fréquemment intéressantes.

Mais la pellicule est vieille, souvent abîmée, atteinte par diverses dégradations chimiques, parfois cassante. Il est fréquent qu’une pellicule ne puisse passer qu’une fois sur le scanner sans casser. Un deuxième passage sera trop exigeant en sollicitations mécaniques et verra la pellicule se tordre ou casser fréquemment.

Il faut donc aborder la numérisation des archives films de façon philosophiquement totalement différente des archives vidéo. Il n’y a pas droit à l’erreur. A priori, on ne peut pas recommencer. Il faut viser immédiatement le plus haut niveau de qualité, c’est tout un héritage culturel qui est en jeu. On ne peut pas imaginer de numériser en qualité moyenne et de repasser une deuxième fois ce qui semblera intéressant, le risque étant trop grand. Il s’agit avant tout ici d’un processus artisanal, culturel, historique et patrimonial bien plus que d’une activité industrielle et commerciale. Il n’y a qu’en ne perdant pas ça de vue qu’on peut aborder judicieusement la numérisation des archives film.

Numérisation, sauvegarde et pérennité : briser le lien entre contenant et contenu ?

Un amalgame est souvent fait lorsque l’on parle de numérique entre le contenant et le contenu. Dans le cas de l’analogique, du film sur pellicule, le contenant et le contenu ne font qu’un. Le contenant est la pellicule elle-même, positive ou négative, sur laquelle le récit filmé est inscrit. Le récit filmé étant le contenu. On ne peut séparer l’un de l’autre. En général, il existe quelques copies mais elles proviennent toutes d’un même négatif, et la perte de qualité due au phénomène de génération analogique différencie sensiblement le négatif original des copies. La destruction ou la perte du contenant (négatif original, ou copie de sauvegarde) induit donc la perte irréversible du contenu, en tout cas dans sa qualité originale.

Tout est différent dans le monde numérique. Une fois le film digitalisé, le contenant et le contenu sont définitivement séparés. Le contenu, le film lui même composé d’images animées et de son, est inscrit sous forme de un et de zéro sur un disque dur (le disque dur est le contenant) et peut être recopié sans perte de qualité un nombre illimité de fois, sur n’importe quel support numérique dont la capacité sera suffisante. Aujourd’hui des disques durs, de la mémoire flash (RAM, SSD, clé USB), des cassettes de sauvegarde LTO, hier des disquettes, des disques magnéto-optiques (CD, DVD, Blue Ray,etc..) des bandes magnétiques numériques et demain, qui sait, des atomes de carbone, des segments d’ADN, l’avenir nous renseignera.

Mais la seule et unique condition à la pérennisation du contenu est la duplication. Il est indispensable que le film soit dupliqué sur de nombreux supports différents, faisant appel à des technologies différentes, entreposés géographiquement à des endroits différents, protégés de façon efficace et cohérente. On comprendra facilement qu’il est plus facile de perdre un film de souvenir de famille qui n’existe que sur le disque dur de votre ordinateur que le concert de Queen au Live Aid le 13 juillet 1985 qui est sur les nombreux et très sécurisés serveurs de Youtube, mais aussi dans la mémoire cache de l’ordinateur de la plupart des 188 millions de spectateurs qui l’ont regardé ces quatre dernières années. Le risque de perte irrémédiable de la prestation de Freddie Mercury et de ses trois acolytes peut être considéré comme très faible. Ce qui n’est pas le cas de vos souvenirs de famille, si ils n’existent qu’en un seul exemplaire, dans un seul format, sur un seul disque dur. Ici le lien entre le contenant et le contenu n’a pas été brisé. Il le sera lorsque vous partagerez avec les membres de votre famille, par une publication privée sur Youtube par exemple, vos souvenirs. Par sécurité vous les aurez copiés sur un disque dur de sauvegarde qui sera stocké non pas à coté de votre ordinateur, mais sur votre lieu de travail par exemple. Ce disque dur sera contrôlé tous les ans, on en lira la totalité du contenu, et il sera remplacé au minimum tous les cinq ans.

Merci à Freddie Mercury, Brian May, Roger Taylor et John Deacon d’avoir attiré votre attention sur cet article.