Conversion d'un pdf en fichier html et texte

Ayant besoin de convertir un fichier pdf en fichier texte et en html, j'ai cherché plusieurs outils permettant de le faire. Pour ce faire, j'ai choisi les outils pdftohtml et pdftotxt. Ces derniers sont deux outils simples à utiliser. Malheureusement (?) et à ma connaissance, ils ne s'utilisent qu'en ligne de commande.


I - Installation du paquet :


Nous allons installer le paquet poppler-utils, qui contient les outils dont nous avons besoin :

aptitude install poppler-utils


II - En html :


Pour utiliser pdftohtml, nous allons tenter d'avoir un fichier html ressemblant le plus possible au fichier PDF :

pdftohtml -c -i -noframes fichier.pdf # le fichier de sortie s'appellera fichier.html

  • -c : pour générer une sortie complète
  • -i : pour ignorer les images (ca permet d'avoir un peu plus de lisibilité)
  • -noframes : permet de ne pas générer de frame où sont listées chaque page du fichier.

D'après mes quelques tests et malgrè le faible nombre d'options, ce sont les seules options qui rendent le html ressemblant au PDF. (au niveau de la mise en page)


III - En texte :


Pour utiliser l'outil pdftotext, nous allons, comme pour le fichier html, essayer d'avoir un fichier texte final des plus lisibles :

pdftotext -layout fichier.pdf # le fichier de sortie s'appellera fichier.txt

  • -layout : permet de maintenir au mieux la mise en page.


III - Petit plus : pour extraire toutes les images :


Il est possible, avec un autre outil d'extraire toutes les images d'un pdf, pour ce faire, il faut utiliser l'outil pdfimages.

Son utilisation est extra simple :

pdfimages fichier.pdf img-num


IV - Conclusion :


Ces outils sont très utiles malgrè que la mise en forme des nouveaux fichiers ne soit pas au top. Mais ils sont bien utiles !

Vus : 181
Publié par Scurz : 48