Commit 1d80512e authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent e4bb5936
# PDF2Blocs
# Evaluation
Un script python qui permet de segmenter des documents numériques au format
PDF ayant un contenu textuel en français.
La segmentation consiste a organiser le contenu textuel d'un document
en une liste de blocs distincts.
Chacun de ces blocs sera transformé en une section de page html :
H1, H2, P, FigCaption, Footer, Header.
Ce programme est basée sur l'outil pdftohtml et pdftotext, deux outils de
la librairie [poppler](https://poppler.freedesktop.org/).
Le programme prend en entrée un fichier au format PDF,
et produit en sortie un fichier html.
On l'exécute depuis la ligne de commande :
> python src/py/pdf2blocks.py /chemin/vers/fichier.pdf
Le résultat est écrit sur la sortie standard. Il est facile de la rediriger
dans un fichier html.
les sorties de pdf2blocs ont été comparées aux sorties d'un logiciel du commerce Abbyy payant. 3 fichiers pdf ont été utilisé pour faire cette comparaison:
* un BSV en viticulture de la région Lorraine datant de 19 juin 2019: Ce fichier contient beaucoup d'images et du texte caché.
* un BSV en viticulture de la région Alsace datant du 26 juillet 2016: Ce fichier est une feuille recto verso imprimée en paysage. Il contient 4 colonnes avec des titres non homogènes. Ces bas de pages pausent aussi problème.
* un BSV vigne de la région Aquitaine datant du 9 avril 2019: la première page de ce fichier est en double colonnes. Il contient une grande typologie de titres et du texte dans des encadrés.
Ces fichiers pdf sont dans le répertoire pdf.
Le répertoire abbyy contient les fichiers html obtenus par le logiciel Abbyy.
L'algorithme utilisé est entièrement décrit dans le fichier
[README.md](https://gitlab.irstea.fr/copain/pdf2blocs/-/blob/master/src/py/README.md) situé dans le répertoire src/py , où se trouve le code source de
[pdf2blocks.py](https://gitlab.irstea.fr/copain/pdf2blocs/-/blob/master/src/py/pdf2blocks.py)
Le répertoire pdf2blocs contient les fichiers html obtenus par le logiciel pdf2blocs.
Le repertoire goldstandard contient les sorties html espérées de la conversion pdf vers html.
## Evaluation
les soeties de pdf2blocs ont été comparées aux sorties d'un logiciel du commerce Abbyy payant. 3 fichiers pdf ont été utilisé pour faire cette comparaison:
* un BSV en viticulture de la région Lorraine datant de 19 juin 2019: Ce fichier contient beaucoup d'images et du texte caché.
* un BSV en viticulture de la région Alsace datant du 26 juillet 2016: Ce fichier est une feuille recto verso imprimée en paysage. Il contient 4 colonnes avec des titres non homogènes. Ces bas de pages pausent aussi problème.
* un BSV vigne de la région Aquitaine datant du 9 avril 2019: la première page de ce fichier est en double colonnes. Il contient une grande typologie de titres et du texte dans des encadrés.
Chaque erreur a été identifiée. La liste des erreurs est disponibles dans un fichier csv.
Chaque erreur a été identifiée. La liste des erreurs est disponibles dans le fichier csv.
Une version de ce fichier est disponible en ligne dansle google drive du projet d2kab / T4.3 / examplesBSV
https://docs.google.com/spreadsheets/d/1azBvHRj0aad6NbF3qvsKbY-aModLqNwztfE3J5dkvMQ/edit#gid=0
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment