Google Image des pages Videotex

jhr · Mai 2, 2019, 4:10

Bonjour,

Je propose que l’un des premier service mis en place par la future association soit un Google Image des pages Videotex.

C’est ce qui interesserait le plus de gens comme la BNF ou les chercheurs du CNRS et le grand public.

Cela permettrait de mettre en avant la sauvegarde du patrimoine du minitel et de pouvoir le presenter tres facilement a nos interlocuteurs.

Il sera de plus tres facile de nourrir ce service par le grand nombre de pages Videotex que nous avons chacun. (tout en motivant d’autres a nous rejoindre dans cet archivage)

L’outil pourrait convertir les pages Videotex en GIF animes (en utilisant l’emulateur de Zigazou) pour les rendre plus accessibles (et linkable dans des tweets ou autres), utiliser les mots contenus dans les pages pour faire une recherche contextuelle, tout en permettant de pouvoir bien sur rajouter des tags.

Il faudrait aussi ajouter un bouton pour qu’un ayant droit puisse se signaler.

Qu’en pensez-vous ?

Cordialement.

cquest · Mai 2, 2019, 4:13

Ce serait une très bonne façon de mettre en valeur les pages écran qu’on a déjà pu archiver (quelques centaines), celles que l’on récupérera des centaines de disquettes de Philippe et celles qu’on récupérera dans le futur !

benjaminthierry · Mai 3, 2019, 9:10

Hello,

est-ce que l’on peut discuter des infos que l’on associera aux clichés ? C’est d’un intérêt fondamental pour les chercheurs d’avoir quelques infos sur les clichés (Nom du service, Date de prise de vue, auteur, une courte description). Je peux mettre la main à la pâte avec plaisir.

Benjamin

cquest · Mai 3, 2019, 10:17

L’idée serait de:

partir des flux vidéotex:
d’en générer un GIF animé pour affichage simple (sans émulateur)
d’en extraire le texte contenu dans la page en fin d’affichage, pour l’indexer
d’associer des meta-données (si on les a): source, service, date, thématique, etc)

Il y a aussi des clichés photo ou des copies d’images existantes qu’on pourrait aussi indexer de la même manière, sans le texte contenu (sauf si on le saisit manuellement ou par OCR quand c’est envisageable).

Si je résume, il faut stocker:

une partie image fixe (jpeg, png, gif) ou animée (gif, vidéo)
le texte correspondant au contenu de la page (généré automatiquement quand on a les flux vidéotex, sinon par saisie manuelle ou OCR)
les meta-données
… et ensuite permettre la recherche et navigation à l’intérieur de l’ensemble

Quelqu’un a une idée d’un outil (libre) qui fait déjà ça ?

Fx-man · Mai 4, 2019, 10:55

Il faut également sauvegarder les données avant transformation en gif ou image

Fx-man · Mai 6, 2019, 3:39

Après réflexion (et passage sur un PC, plus pratique qu’un smartphone pour écrire), voici quelques remarques (en vrac) :

Google Image, c’est bien, mais quand même un poil limité.
Il faut un max de chose. Dans la préservation, pas de tri sur ce que l’on garde ou non, mais du classement logique. Une photo, c’est bien, mais l’iso de la disquette d’origine, c’est quand même un énorme plus.
Il faut faire très attention aux problèmes de droits. Mettre en ligne une image de la page d’une grosse entreprise (Vuitton, Nintendo…) ne passera pas forcément auprès des ayants droits. Cela veut dire peut-être faire une séparation entre ce qui est public et ce qui est à destination des chercheurs et cie…
La BNF, tout l’intéresse, du moment que c’est gratuit et qu’elle peut dire que c’est elle qui a tout fait.
Pour le classement, organisation, plein de possibilités, mais aucune de parfaite (Piwigo pour les images, PMB pour une gestion bibliothécaire…). Il serait presque préférable de partir de zéro (c’est ce que l’on fait pour La ludothèque française).
Plein de sauvegardes. Des tonnes. Sur le web et sur des NAS persos en plusieurs endroits.
Peut-être aller plus loin dans la réflexion : les machines, les outils, les livres, les contenus…

Et d’autres idées à venir.

godefroy · Mai 11, 2019, 12:18

Super idée à laquelle je souscris.

lelex64734 · Septembre 10, 2019, 4:31

Connaissez vous cette banque Videotex ?

jhr · Septembre 10, 2019, 5:13

Woa sympa ! dommage que cette section soit zippe

Adel.Faure · Octobre 4, 2021, 10:26

Je trouve ça super ! Petite question, n’y a-t-il pas d’alternatives à Google Image ?

hwarin · Octobre 6, 2021, 9:25

… Je ne sais pas …

Pour ce qui est de la conservation des images au format « source », j’ai codé un petit truc là : PyMoIP/SplitVDT at master · 64rulez/PyMoIP · GitHub … Je pense bientôt pouvoir « mettre en ligne » l’ensemble du repository.

CDT - Hervé

cquest · Octobre 7, 2021, 10:51

Si, bien sûr je pense que la référence à Google Images est surtout pour faire comprendre l’idée.

L’important étant de générer une version des pages vidéotex dans des formats d’images courants (GIF, PNG, mp4) pour permettre leur indexation par les moteurs de recherche (dont Google, mais heureusement il n’est pas seul).