Commit 6892004e authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent 12ecbb4a
......@@ -2,12 +2,13 @@
Un script java qui permet de segmenter des documents numériques au format PDF ayant un contenu textuel en français.
La segmentation consiste a organiser le contenue textuel d'un document en une liste de blocs distincts.
La segmentation consiste a organiser le contenue textuel d'un document en une liste de blocs distincts.
Chacun de ces blocs sera transformé en une section de page html: H1, H2, P, FigCaption, Footer, Header.
Ce programme est basée sur l'outil pdftohtml https://doc.ubuntu-fr.org/pdftohtml et la librairie dom4j https://dom4j.github.io/.
Le programme prend en entrée un dossier contenant un (des) documents numérique au format PDF, et produit en sortie la version XML non ségmentée de ce (ces) documents (produite directement à partir de pdftohtml), ainsi que la version XML segmentée de ce (ces) document. Une sortie en format TXT basée sur la segmentation viendra ultérieurement.
Le programme prend en entrée un dossier contenant un (des) documents numérique au format PDF, et produit en sortie un fichier html.
......@@ -32,8 +33,3 @@ La fonction qui permet de construire les blocs est la fonction bar. Elle prend e
-> src/ressources/ponctuation.txt : liste de caractères de ponctuation.
### Idées, TODO, ...
- Plutôt que d'enlever les pied de page, les marquer.
- De même, marquer le "texte petit".
- Dans les blocs, passer de ligne à ligne à phrase par
phrase.
\ No newline at end of file
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment