Un script java qui permet de segmenter des documents numériques au format PDF ayant un contenu textuel en français.
La segmentation consiste a organiser le contenue textuel d'un document en une liste de blocs distincts.
La segmentation consiste a organiser le contenue textuel d'un document en une liste de blocs distincts.
Chacun de ces blocs sera transformé en une section de page html: H1, H2, P, FigCaption, Footer, Header.
Ce programme est basée sur l'outil pdftohtml https://doc.ubuntu-fr.org/pdftohtml et la librairie dom4j https://dom4j.github.io/.
Le programme prend en entrée un dossier contenant un (des) documents numérique au format PDF, et produit en sortie la version XML non ségmentée de ce (ces) documents (produite directement à partir de pdftohtml), ainsi que la version XML segmentée de ce (ces) document. Une sortie en format TXT basée sur la segmentation viendra ultérieurement.
Le programme prend en entrée un dossier contenant un (des) documents numérique au format PDF, et produit en sortie un fichier html.
...
...
@@ -32,8 +33,3 @@ La fonction qui permet de construire les blocs est la fonction bar. Elle prend e
-> src/ressources/ponctuation.txt : liste de caractères de ponctuation.
### Idées, TODO, ...
- Plutôt que d'enlever les pied de page, les marquer.
- De même, marquer le "texte petit".
- Dans les blocs, passer de ligne à ligne à phrase par