Numériser efficacement un article long
Voilà le début d'une série d'articles destinée à synthétiser plusieurs astuces accumulées dans mon bloc-note au sujet de la numérisation de longs documents en PDF. Moins simple qu'il n'y paraît, il est nécessaire de relever plusieurs défis pour avoir en main une copie numérique acceptable de son document papier. Le premier d'entre eux - et dont il est question dans ce premier article - est de rendre cette procédure accessible à la fois en terme de complexité et de temps passé. De plus - contraintes personnelles -, il nous faut trouver des outils libres pour effectuer cette manipulation. Dans ce premier article, nous nous contenterons de procéder à l'acquisition de l'image, activité chronophage que nous tenterons néanmoins de faire le plus efficacement possible.
XSane, un logiciel de numérisation couteau-suisse
Dans le processus de numérisation, on appelle acquisition de l'image l'étape qui précisément transforme un document papier en une version numérique. Pour cela, je propose d'utiliser le logiciel XSane pour cette opération [1]. Ce dernier possède plusieurs avantages indéniables en plus d'être sous licence libre : il gère très bien le multipage (comprendre : il réunit lui-même les documents de plusieurs pages en un seul fichier), il sait enregistrer en PDF directement, ne nécessite aucune installation du scanner [2] et fonctionne sur toutes les plateformes répandues.
Pour l'installation, les utilisateurs de Mac OSX ou Microsoft Windows se rendront sur la page officielle du projet où vous pourrez télécharger le fichier nécessaire, et installez le comme un logiciel standard. J'aurai peine à vous plus de conseil cependant, n'utilisant moi-même pas ces plate-formes. Sous Windows, le logiciel SaneTwain qui semble être un dérivé du premier, pourra peut-être aussi vous rendre service en cas de problème avec le premier. Sous GNU/Linux, le logiciel devrait être disponible sous forme de paquet dans les dépôts de votre distribution.
Les réglages indispensables
Pour l'acquisition proprement dite, choisissez le mode Multipage, et le type de fichier final PDF qui est un format tout particulièrement adapté à notre situation [3]. On va vous demander de créer un projet. Donnez-lui un nom, et éventuellement choisissez son emplacement dans votre disque dur. Très concrètement, ce projet n'est qu'un répertoire temporaire qui sera créé et qui contiendra les différentes pages que vous aurez scannées, jusqu'à ce que votre document soit assemblé en un fichier unique.
La résolution à choisir est 300 dpi (minimum 200 dpi) si vous souhaitez un document réimprimable par la suite, en dessous vous obtiendrez une qualité vraiment trop faible. Au dessus, le poids en méga octet croît de façon exponentielle [4]. Donc 300 dpi est un bon compromis à mon sens. Pour un document destiné à une lecture sur écran uniquement, si en théorie 75 dpi devrait suffire, il permet aucune marge de manœuvre quant à l'affichage optimal à vos yeux (zoom). À ce titre, 150 dpi est à mon avis plus raisonnable pour le confort de lecture.
Concernant la couleur, aucun scoop, le choix dépend de votre document d'origine et du rendu que vous souhaitez obtenir. Il faut néanmoins tenir compte du fait qu'un document en niveaux de gris est plus léger qu'un document en couleur. Pour le reste de réglages, je vous conseille de laisser telle quelle la configuration.
Le cadrage (optionnel)
Par défaut, le scanner procède à l'acquisition de la surface maximale possible. Or bien souvent, une partie non négligeable de l'image obtenue pourrait être ignorée, par exemple les bandes noires qui entoureraient un document au format poche. Exclure ces zones de la numérisation permet :
- d'alléger votre fichier numérisé, puisque celui ci contient moins d'informations ;
- des économies d'encre non négligeables à l'impression,
- un rendu plus sérieux, paramètre qui a son importance pour une utilisation professionnelle.
Pour indiquer à votre scanner la zone à numériser, rendez vous dans la fenêtre d'aperçu. Si celle-ci n'est pas ouverte, vous le ferez à partir du menu Fenêtre puis Aperçu. Procédez à la prévisualisation de votre document à l'aide du bouton Acquisition de l'aperçu. Une fois l'image affichée, sélectionnez à l'aide de votre curseur la surface du document qui vous intéresse. Le scanner se contentera alors de ne numériser que celle-ci.
Attention. Veillez à positionner à l'identique chaque page du document sur la vitre du scanner, sans quoi votre image sortirait du cadre ici sélectionné.
L'acquisition proprement dite
Vous n'avez maintenant plus qu'à positionner votre document (ou repositionner à l'identique si vous avez recadré la zone de numérisation), et cliquer sur le bouton Numériser de la fenêtre principale. Et ainsi de suite, de page en page.
Astuce. Utiliser le bouton Éditer l'image pour effectuer quelques réglages sur la page fraîchement scannée. Particulièrement utile pour la tourner dans le bon sens, si besoin.
Conseil. Si votre document source est composé comme ici de pages plutôt fines, glissez une feuille sombre derrière celles ci pour atténuer l'effet de transparence lors de la numérisation. Pour un exemple du rendu sans cette technique, voir la dernière illustration ci-dessus.
Enfin, n'oubliez pas une fois terminé (et éventuellement en cours de route) à sauvegarder votre projet à l'aide du bouton Enregistrer le projet multipage. Ceci aura pour conséquence d'assembler tous les différents éléments scannés en un seul. Si le rendu de ce dernier vous satisfait pleinement, vous pourrez supprimer le répertoire de votre projet avec le bouton Effacer un projet.
En conclusion, des chiffres et quelques remarques
À titre d'exemple et pour comparaison, voici ce que j'ai obtenu en numérisant le premier chapitre de l'ouvrage « Les structures élémentaires de la vie religieuse » d'Émile Durkheim (1929) : 29 pages scannées deux par deux, le document source étant au format poche. Résultat, avec du matériel non-récent acheté en grande surface non-spécialisé [5], il m'a fallu 10 minutes pour numériser - sans optimisation préalable - 15 pages en 300 dpi, pour un fichier PDF généré de 78 Mo.
Vous ne manquerez pas de remarquer l'obésité terrifiante du fichier obtenu. Les problèmes que ça pose sont nombreux : lenteur à l'ouverture comme à la navigation, impossibilité pour l'envoyer par courrier électronique, stockage problématique en cas de multiplication de fichiers de ce type. Un traitement post-acquisition est donc nécessaire pour garantir l'utilisabilité du fichier créé. Ce sera l'objet d'un article prochain, mais vous pouvez en attendant jeter un œil : ici pour les utilisateurs d'un système GNI/Linux, ici pour Mac OSX (je n'ai encore rien déniché concernant Microsoft Windows).
En définitive, l'acquisition est l'étape la plus longue et la plus lourde. Cependant, avec ce logiciel gérant le multipage, vous n'aurez normalement qu'à disposer le document sur le scanner, et tourner les pages. Difficile de trouver moins de choses à faire ! Le temps passé à cette opération dépendra grandement de la vitesse de votre matériel, et de la qualité de l'huile de coude que vous utilisez... À quand la possibilité de numériser un ouvrage en le feuilletant simplement ?
[1] Les conseils ici exposés sont a priori valables - à quelques adaptions près - pour tout logiciel de numérisation gérant le multipage.
[2] Ce logiciel possède en fait sa propre collection de pilotes (drivers) pour faire fonctionner votre matériel.
[3] En savoir plus sur le format PDF (Portable Document Format).
[4] À ce sujet, vous trouvez cette page vraiment éclairante, mais par contre assez technique.
[5] Précisément, j'utilise le CanoScan LiDE 25.
Je découvre tardivement l'existence de ce document. Le contenu est à quelques détails près le même que celui de cet article, mais peut-être l'expliquent-ils mieux pour vous ?
Édit du 22 novembre 2010. Également cet article sur « Comment numériser ses propres livres ? » vaut le détour. On y explique très concrètement et de façon très détaillée les différents outils, les multiples méthodes et tous ces enjeux qui entourent cette technique dite du "Jisui" (au Japon).