Commit 68c2d012 authored by Roussey Catherine's avatar Roussey Catherine
Browse files

ajout d'un readme dans evaluation

parent efbf142c
# PDF2Blocs
Un script python qui permet de segmenter des documents numériques au format
PDF ayant un contenu textuel en français.
La segmentation consiste a organiser le contenu textuel d'un document
en une liste de blocs distincts.
Chacun de ces blocs sera transformé en une section de page html :
H1, H2, P, FigCaption, Footer, Header.
Ce programme est basée sur l'outil pdftohtml et pdftotext, deux outils de
la librairie [poppler](https://poppler.freedesktop.org/).
Le programme prend en entrée un fichier au format PDF,
et produit en sortie un fichier html.
On l'exécute depuis la ligne de commande :
> python src/py/pdf2blocks.py /chemin/vers/fichier.pdf
Le résultat est écrit sur la sortie standard. Il est facile de la rediriger
dans un fichier html.
L'algorithme utilisé est entièrement décrit dans le fichier
[README.md](https://gitlab.irstea.fr/copain/pdf2blocs/-/blob/master/src/py/README.md) situé dans le répertoire src/py , où se trouve le code source de
[pdf2blocks.py](https://gitlab.irstea.fr/copain/pdf2blocs/-/blob/master/src/py/pdf2blocks.py)
## Evaluation
les soeties de pdf2blocs ont été comparées aux sorties d'un logiciel du commerce Abbyy payant. 3 fichiers pdf ont été utilisé pour faire cette comparaison:
* un BSV en viticulture de la région Lorraine datant de 19 juin 2019: Ce fichier contient beaucoup d'images et du texte caché.
* un BSV en viticulture de la région Alsace datant du 26 juillet 2016: Ce fichier est une feuille recto verso imprimée en paysage. Il contient 4 colonnes avec des titres non homogènes. Ces bas de pages pausent aussi problème.
* un BSV vigne de la région Aquitaine datant du 9 avril 2019: la première page de ce fichier est en double colonnes. Il contient une grande typologie de titres et du texte dans des encadrés.
Chaque erreur a été identifiée. La liste des erreurs est disponibles dans un fichier csv.
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment