Public Domain Rank ou le Top 50 automatique des auteurs de Wikipédia

Le calendrier de l'avent du domaine public est un projet porté par SavoirsCom1 qui consiste à dévoiler chaque jour de décembre un auteur entrant dans le domaine public le 1er janvier suivant. On se retrouve donc avec une liste de 31 noms, mais comment s'effectue la sélection ?

Un peu au hasard pour tout vous dire. Nous allons sur des bases de données d'auteurs pour y rechercher ceux morts 70 ans auparavant. Puis nous opérons un tri nécessairement subjectif selon des critères tels que la renommée, la discipline, la nationalité, le sexe...

Allen Riddell, professeur dans le New Hampshire, a voulu abolir ce hasard en proposant un algorithme issu de données brutes de Wikipédia : le « Public Domain Rank ».

Selon les années, les décennies ou des champs particuliers (les femmes écrivains américaines, les philosophes français du XXè siècle, ), on se retrouve ainsi à chaque fois avec un classement ordonné d'auteurs susceptible d'aider dans leur choix des projets de curation du domaine public comme Gutenberg, LibriVox ou SavoisCom1.

Allen Riddell explique comment il a procédé dans son étude Public Domain Rank : Identifying Notable Individuals with the Wisdom of the Crowd. Le calculateur puise ses données dans la base de près d'un million d'auteurs présents sur Wikipédia en s'intéressant à des informations comme la taille et l'âge de l'article, son trafic, la date de sa dernière modification, etc. Puis on corrèle le tout avec le site de livres électroniques The Online Books Page pour aboutir à un certain score.

Ainsi, si je me montre curieux des nouveaux entrants du domaine public en France le 1er janvier 2015, je vais me rendre sur le classement des morts en 1944 avec un résultat dont je vous laisse juge de la pertinence [1]. Les chanceux [2] Canadiens pourront quant à eux se rendre sur 1964 et donner par exemple priorité à la numérisation des œuvres de Flannery O'Connor.

La méthode ne s'intéresse qu'aux données de la Wikipédia en langue anglaise et possède de nombreux biais, à commencer par tous ceux de l'encyclopédie elle-même. Mais elle a son intérêt en se passant automatiquement des comités de sélection pour faire confiance à la sagesse des foules.


[1] À comparer dans quelques jours avec la nouvelle mouture du calendrier qui, invitation en avant-première, sera inaugurée le 1er décembre prochain à Numa.

[2] Le droit d'auteur au Canada a une durée de 50 ans post mortem contre 70 ans en France.

Vus : 666
Publié par Romaine Lubrique : 105