Le web n’oublie rien

Le web est un endroit formidable pour tous les gens qui veulent s’exprimer. Que ce soit via une vidéo de chat, un status ou simplement pour donner son opinion.

Il serait triste que tout ça disparaisse. Que ce soit à cause de censure ou simplement de site qui ferme. Pour lutter contre ça, présentation aujourd’hui de The Internet Archive et Resurrect this page.

The Internet Archive

The Internet Archive est une organisation à but non lucratif qui, comme son nom l’indique (presque), archive le web.

Le projet, créé en 1996, à pour but de constituer une bibliothèque numérique regroupant pages web, logiciels, vidéos, livres et enregistrement audio. L’organisation a d’ailleurs le status officiel de bibliothèque, en faisant partie de l’American Library Association (attention aux faux amis).
Un robot d’indexation (libre), Heritrix, parcours le web et sauvegarde ainsi des millions de pages récoltées. Chaque nouvelle sauvegarde ne remplace pas la précédente pour qu’il soit possible de toutes les consulter.

Via the Wayback Machine (ou !archive avec DDG), toutes ces archives sont consultables facilement. Il est ainsi facile de regarder l’évolution d’un site en comparant les snapshots mémorisés.
Comment avoir son site indexé ? Il faut que le robot passe sur votre site. Si de nombreux liens externes pointent vers votre site, il y a plus de chance qu’il soit indexé. La page d’accueil de ce site a, par exemple, été indexé une fois en avril ainsi que 64 autres pages.

Vous vouliez vraiment priver nos enfants de ça ?

En plus de Wayback (qui est clairement leur projet le plus populaire), Internet Archive a par exemple développé Open Library dont le but est de créer une page pour chaque livre jamais publié (oui rien que ça).
Ils numérisent également les livres disponibles dans le domaine publique. Ils auraient à ce jour, 6 millions d’auteurs, 20 millions de livres référencés et un million de livres numérisés.
Le code source du site web est publié sur GitHub.

Autre projet intéressant de Internet Archive : 301works qui a pour but de mémoriser toutes les urls réelles des réducteurs d’url en cas de fermeture du service (une des raisons qui rend ces services craignos).

Resurrect this page

Resurrect this page est un addon pour firefox open source qui rend un grand service à nous autre, deadlinkophobe (la peur des liens morts). D’un simple clic droit sur n’importe quelle page ou lien, vous pouvez consulter le cache à propos de cette page parmi :

  • CoralCDN
  • Google Cache
  • Yahoo! Cache
  • The Internet Archive
  • MSN Cache
  • Gigablast
  • WebCite

Si vous arrivez sur une page d’erreur, celle ci possède désormais quelques boutons pour consulter le cache en un clic.

Vade retro 404

Bon évidement faut que votre page soit indexée mais c’est quand même assez souvent le cas (au minimum avec le cache google pour les sites pas trop fréquentés).

Et pour finir, en vrac quelques liens qui peuvent être intéressant dans la rubrique « le web n’oublie rien » :

  • L’effet Streisand ou pourquoi la censure peut aider à la diffusion d’une information
  • Projet autoblog qui permet de répliquer facilement des articles de blog et ainsi contrer la censure (faudra que j’en installe deux ou trois)
  • La Library of Congress des US qui archive tous les tweets des gens
  • Et finalement si vous avez compris que le web n’oublie rien, vous pouvez toujours essayer de noyer le poisson
Vus : 1712
Publié par mart-e : 65