Manipuler les fichiers PDF

Ceci est un pense-bête sur les manipulations de fichiers PDF en ligne de commande à l’aide de GhostScript (gs) et PDF ToolKit (pdftk).

Compresser

gs -dNOPAUSE -sDEVICE=pdfwrite -sOUTPUTFILE=output.pdf -dBATCH original.pdf

Concaténer

pdftk recto.pdf verso.pdf cat output total.pdf

Extraire

pdftk mon-document.pdf cat 2-5 output 2-5.pdf

Convertir

  • pdfinfo : Permet de voir le nom de l’auteur, le logiciel utilisé, la date de création du document etc.
  • pdfimages : Permet d’extraire les images contenues dans le PDF
  • pdftotext : Permet de convertir le PDF en texte simple
  • pdftohtml : Permet de convertir le PDF en HTML