*This python script converts pdf file written in french into html file.*
This project has been moved to [https://forgemia.inra.fr/bsv/pdf2blocs](https://forgemia.inra.fr/bsv/pdf2blocs).
*The conversion consists in organizing the textual content of a pdf file into separate blocks. Each of these blocks will be transformed into an html section: H1, H2, P, FigCaption, Footer, Header.*
*This program uses pdftohtml and pdftotext, two tools of the poppler bookstore (https://poppler.freedesktop.org/)*
*It's run from the command line:*
python pdf2blocks.py /link/to/file.pdf
*The result is written on standard output.*
*The algorithme is described in french into the README.md file of the archive.*
## Résumé
Un script python qui permet de segmenter des documents numériques au format
PDF ayant un contenu textuel en français.
La segmentation consiste a organiser le contenu textuel d'un document
en une liste de blocs distincts.
Chacun de ces blocs sera transformé en une section de page html :
H1, H2, P, FigCaption, Footer, Header et Table.
Ce programme est basée sur l'outil pdftohtml et pdftotext, deux outils de
la librairie [poppler](https://poppler.freedesktop.org/).
les sorties de pdf2blocs ont été comparées aux sorties d'un logiciel du commerce Abbyy payant. 3 fichiers pdf ont été utilisé pour faire cette comparaison:
* un BSV en viticulture de la région Lorraine datant de 19 juin 2019: Ce fichier contient beaucoup d'images et du texte caché.
* un BSV en viticulture de la région Alsace datant du 26 juillet 2016: Ce fichier est une feuille recto verso imprimée en paysage. Il contient 4 colonnes avec des titres non homogènes. Ces bas de pages pausent aussi problème.
* un BSV vigne de la région Aquitaine datant du 9 avril 2019: la première page de ce fichier est en double colonnes. Il contient une grande typologie de titres et du texte dans des encadrés.
Chaque erreur a été identifiée. La liste des erreurs est disponibles dans un fichier csv.
L'ensemble des fichiers sont disponibles dans le répertoire corpusEvaluation