Le PDF, pour Portable Document Format (« format de document portable » en français), est un format de fichier numérique mis au point par la société informatique américaine Adobe Systems.
Sa principale caractéristique est de préserver la mise en page d’un document source : peu importe le terminal, le système d’exploitation et le logiciel utilisé pour créer, afficher ou imprimer un PDF, les polices de caractères, les images et autres éléments du document sont restitués à l’identique. Comme le souligne Bob Wulff, vice-président de l’ingénierie chez Adobe, « le format PDF permet à l’utilisateur de visualiser précisément – au pixel près – ce que l’auteur d’un fichier a prévu ».
Grâce à cette spécificité, le PDF constitue un moyen efficace et fiable d’échanger et de consulter des documents électroniques, qui répond à la fois aux besoins du grand public et aux exigences des institutions ou entreprises.
Le format développé par Adobe repose sur trois technologies : une variation du langage de description de page PostScript, conçu par la même entreprise, sert à générer la mise en page et les éléments graphiques ; un système d’intégration et de remplacement des polices de caractères autorise ces dernières à « suivre » le document ; une méthode de stockage structurée permet de regrouper et conserver l’ensemble de ces données et des contenus associés (dessins, photos, contenus multimédias…) dans un fichier unique. À ce titre, le PDF est « orienté présentation », contrairement aux fichiers HTML ou XML.
De Camelot à Acrobat
Le format PDF est le fruit des réflexions de John Warnock, cofondateur d’Adobe Systems aux côtés de Charles Geschke. L’informaticien part d’un constat : au début des années 1990, chaque système d’exploitation (Mac, Windows, MS DOS, Unix) a sa propre façon de fonctionner et d’interpréter les fichiers électroniques. Il est impossible « d’échanger des informations entre des machines, des systèmes, des utilisateurs de manière à garantir que le fichier ait la même apparence partout où il passe », relate Leonard Rosenthol, architecte PDF chez Adobe.
En août 1990, Warnock pose les bases du PDF dans un article intitulé « The Camelot Project ». Il explicite sa vision :
Les travaux de l’équipe dédiée au projet chez Adobe aboutissent un an plus tard et l’invention est annoncée à la conférence Seybold sur l’édition informatique, qui se tient à San José en octobre 1991.
À l’origine, le logiciel destiné à l’exploitation du PDF portait le nom de code « Carousel » (d’où l’existence de fichiers .caro). Mais la marque était déjà déposée par la Eastman Kodak Company, qui l’utilisait pour un projecteur de diapositives. C’est finalement sous le nom d’« Adobe Acrobat » que le produit est présenté au salon informatique Comdex de l’automne 1992, où elle remporte le Best of Comdex Award.
La version 1.0 d’Adobe Acrobat est officiellement lancée le 15 juin 1993. La campagne marketing, qui inclut notamment une publicité de huit pages dans le Wall Street Journal, cible principalement les entreprises et insiste sur les économies de papier réalisables grâce à la technologie PDF.
Une vidéo de présentation d’Adobe Acrobat en 1993 : The Office avant l’heure.
Échec au décollage
Le PDF ne rencontre pas un succès immédiat, tant s’en faut. « Quand Acrobat a été annoncé, le monde n’a pas pigé. Les gens ne comprenaient pas à quel point envoyer des documents de manière électronique allait devenir important », se souvenait John Warnock dans une interview au journal universitaire Knowledge@Wharton.
À l’époque, sa création entre en concurrence avec d’autres formats aux ambitions proches, comme DjVu, Envoy, Common Ground Digital Paper ou Farallon Replica. Même PostScript, imaginé par Warnock et Geschke dès la création d’Adobe en 1982, fait de l’ombre au nouveau venu.
Dans sa première version, le PDF souffre également de faiblesses techniques : il ne reconnaît que le mode colorimétrique RVB, ce qui exclut un usage professionnel en prépresse, et son poids est plus important qu’un simple fichier texte, ce qui implique un temps de téléchargement considérablement plus long.
Surtout, Acrobat Reader 1.0, indispensable pour afficher des fichiers PDF, n’est pas donné : il faut compter entre 35 et 50 dollars pour l’obtenir. L’IRS, le fisc américain, a beau se porter acquéreur d’une licence pour distribuer le logiciel à ses employés, la politique tarifaire condamne le PDF a une diffusion confidentielle.
« Le conseil d’administration [d’Adobe] voulait l’enterrer, a reconnu Warnock. J’ai dit : “ Il en est hors de question. Il s’agit de résoudre un problème important, et nous allons nous accrocher jusqu’à ce que ça marche. ” »
Adobe prend alors une décision radicale pour sauver son format : à compter de la version 2.0, lancée en septembre 1994, Acrobat Reader devient gratuit. Seuls les logiciels de création et d’édition des PDF continuent à être payants.
Huit versions en treize ans
Au cours de la décennie suivante, Adobe s’attache à perfectionner son invention et à l’adapter aux évolutions technologiques. Au fil des versions, le PDF s’enrichit de nouvelles fonctionnalités.
Version du PDF | Date de lancement | Principales nouveautés |
1.0 (Acrobat 1) |
1993 | – Texte – Images – Pages – Liens hypertextes – Signets – Vignettes |
1.1 (Acrobat 2) |
1994 | – Protection par mot de passe – Articles – Commentaires – Liens externes – Couleurs indépendantes du périphérique de sortie – Format binaire pour des fichiers plus légers |
1.2 (Acrobat 3) |
1996 | – Formulaires – Éléments interactifs (boutons radio, cases à cocher) – Vidéo et son – Prise en charge des langues chinoises, coréenne et japonaise – Gestion de l’espace colorimétrique CMJN – Plug-in pour ouvrir les PDF avec un navigateur web |
1.3 (Acrobat 4) |
1999 | – Annotations – Signatures numériques – Couleurs d’accompagnement – Capture web (conversion de pages HTML vers PDF) Prise en charge de JavaScript |
1.4 (Acrobat 5) |
2001 | – Gestion de la transparence et de la surimpression – Cryptage 128 bits – Travail collaboratif |
1.5 (Acrobat 6) |
2003 | – Prise en charge des fichiers multicalques – Amélioration de la compression |
1.6 (Acrobat 7) |
2005 | – Intégration de données 3D – Lots PDF (PDF regroupant plusieurs fichiers individuels) |
1.7 (Acrobat 8) |
2006 | – Activation des formulaires dans Adobe Reader – Amélioration des commentaires, du cryptage et des animations 3D – Paramètres prédéfinis d’impression (papier, nombre de copies, échelle d’impression…) |
La voie de la normalisation
En 2007, le PDF est devenu un standard de facto. S’il est déjà un format ouvert, ses spécifications étant publiques et librement mises en œuvre, Adobe souhaite aller plus loin et annonce son intention de le normaliser.
La norme ISO 32000-1, qui reprend la version 1.7 du PDF, est publiée le 1er juillet 2008. Depuis, l’évolution officielle du format dépend du comité technique de l’Organisation internationale de normalisation, dont Adobe n’est qu’un membre.
En juillet 2017, le PDF 2.0 voit le jour, sous l’appellation ISO 32000-2. Cette mise à jour introduit des améliorations techniques (chiffrement, annotations, accessibilité, 3D…), évacue des éléments obsolètes (formulaires XFA, contenus multimédias…) et élimine toute technologie propriétaire des spécifications. Une révision du PDF 2.0 en décembre 2020 clarifie, précise et actualise la norme.
Des sous-formats du PDF sont également normalisés par l’ISO, qui correspondent chacun à des besoins spécifiques : le PDF/A (« Archive ») pour l’archivage et la conservation à long terme des documents numériques, le PDF/X (« eXchange ») pour l’impression et la production graphique, le PDF/VT (« Variable and Transactional ») pour de gros volumes d’impressions personnalisées, le PDF/E (« Engineering ») pour l’ingénierie et le PDF/UA (« Universal Access ») pour l’accessibilité aux personnes en situation de handicap.
Indispensable OCR
Aujourd’hui, le PDF s’est largement imposé, tant pour un usage professionnel que personnel. Conformément à sa vocation initiale, il facilite la lecture humaine de documents en s’affranchissant des contraintes de support. Mais s’il est devenu omniprésent, le format n’en présente pas moins un défaut crucial au regard des ambitions informatiques actuelles : il est particulièrement difficile à lire par une machine. Pour automatiser le traitement de fichiers PDF, l’intelligence artificielle est essentielle.
Les « vrais PDF » sont ceux créés numériquement à partir d’un logiciel ; ils comportent une couche de texte dont il est possible d’extraire les éléments. Seulement, ceux-ci dépendent du type de PDF et incluent parfois des directives de gestion des couleurs ou la prise en charge des polices intégrées –autant d’informations pouvant parasiter l’automatisation.
Les documents papier numérisés et les images enregistrées en PDF constituent quant à eux des PDF « images » ; il faut obligatoirement recourir à la reconnaissance optique de caractères (Optical Character Recognition ou OCR) pour extraire leur contenu.
Le PDF qui a été soumis à un processus d’OCR devient « consultable » : il dispose de deux couches, la première avec l’image, la seconde avec le texte devenu aisément manipulable. Le fichier ainsi structuré, la machine n’aura aucune peine à le traiter.
Sources : Adobe, PDF Association, Ernie Smith / Tedium, Wharton / University of Pennsylvania, ISO, « Intelligent Document Processing – Methods and Tools in the real world » de Graham A. Cutting et Anne-Françoise Cutting-Decelle.
Crédits photo : Marvalous via Wikimedia Commons