From eae752338b932a60b03c8f71e43ef81f9a82d2b8 Mon Sep 17 00:00:00 2001
From: Bernard Stephan <stephan.bernard@irstea.fr>
Date: Thu, 21 Nov 2024 10:05:09 +0100
Subject: [PATCH] Update README.md

---
 README.md | 62 +------------------------------------------------------
 1 file changed, 1 insertion(+), 61 deletions(-)

diff --git a/README.md b/README.md
index 38c5a8e..e27e6a0 100644
--- a/README.md
+++ b/README.md
@@ -2,65 +2,5 @@
 
 [![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.6605450.svg)](https://doi.org/10.5281/zenodo.6605450)
 
-## Abstract
-*This python script converts pdf file written in french into html file.*
+This project has been moved to [https://forgemia.inra.fr/bsv/pdf2blocs](https://forgemia.inra.fr/bsv/pdf2blocs).
 
-*The conversion consists in organizing the textual content of a pdf file into separate blocks. Each of these blocks will be transformed into an html  section: H1, H2, P, FigCaption, Footer, Header.*
-
-
-*This program uses pdftohtml and pdftotext, two tools of the poppler bookstore (https://poppler.freedesktop.org/)*
-
-*It's run from the command line:*
-
-python pdf2blocks.py /link/to/file.pdf
-
-*The result is written on standard output.*
-
-*The algorithme is described in french into the README.md file of the archive.*
-
-## RÃ©sumÃ©
-Un script python qui permet de segmenter des documents numÃ©riques au format
-PDF ayant un contenu textuel en franÃ§ais.
-
-La segmentation consiste a organiser le contenu textuel d'un document
-en une liste de blocs distincts.
-Chacun de ces blocs sera transformÃ© en une section de page html :
-H1, H2, P, FigCaption, Footer, Header et Table.
-
-
-Ce programme est basÃ©e sur l'outil pdftohtml et pdftotext, deux outils de
-la librairie [poppler](https://poppler.freedesktop.org/).
-
-Pour la reconnaissance des tableaux, il utilise
-[camelot-py](https://pypi.org/project/camelot-py/)
-([documentation](https://camelot-py.readthedocs.io/en/master/index.html)).
-Camelot peut s'appuyer sur ghostscript ou poppler. Nous avons bien sÃ»r
-choisi le second, qui nÃ©cessite [pdftopng](https://pypi.org/project/pdftopng/)
-(basÃ© sur poppler).
-
-Le programme prend en entrÃ©e un fichier  au format PDF,
-et produit en sortie un fichier html.
-
-On l'exÃ©cute depuis la ligne de commande :
-
->     python src/py/pdf2blocks.py /chemin/vers/fichier.pdf
-
-Le rÃ©sultat est Ã©crit sur la sortie standard. Il est facile de la rediriger
-dans un fichier html.
-
-
-L'algorithme utilisÃ© est entiÃ¨rement dÃ©crit dans le fichier
-[README.md](https://gitlab.irstea.fr/copain/pdf2blocs/-/blob/master/src/py/README.md) situÃ© dans le rÃ©pertoire src/py , oÃ¹ se trouve le code source de
-[pdf2blocks.py](https://gitlab.irstea.fr/copain/pdf2blocs/-/blob/master/src/py/pdf2blocks.py)
-
-
-## Evaluation
-
-les sorties de pdf2blocs ont Ã©tÃ© comparÃ©es aux sorties d'un logiciel du commerce Abbyy payant. 3 fichiers pdf ont Ã©tÃ© utilisÃ© pour faire cette comparaison:
-* un BSV en viticulture de la rÃ©gion Lorraine datant de 19 juin 2019: Ce fichier contient beaucoup d'images et du texte cachÃ©.
-* un BSV en viticulture de la rÃ©gion Alsace datant du 26 juillet 2016: Ce fichier est une feuille recto verso imprimÃ©e en paysage. Il contient 4 colonnes avec des titres non homogÃ¨nes. Ces bas de pages pausent aussi problÃ¨me.
-* un BSV vigne de la rÃ©gion Aquitaine datant du 9 avril 2019: la premiÃ¨re page de ce fichier est en double colonnes. Il contient une grande typologie de titres et du texte dans des encadrÃ©s.
-
-Chaque erreur a Ã©tÃ© identifiÃ©e. La liste des erreurs est disponibles dans un fichier csv.
-
-L'ensemble des fichiers sont disponibles dans le rÃ©pertoire corpusEvaluation
-- 
GitLab