Commit b6e9dfaa authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent 0d72daa6
......@@ -135,14 +135,15 @@ Le programme *pdf2blocks* commence par lancer la commande suivante :
pdftotext -bbox-layout -eol unix /path/to/file.pdf
Le résultat de cette commande est stockée dans une liste python. Cette liste
a été nommée ***blocks***. Cette liste est initialisée avec les sorties de
a été nommée ***blocks***. Cette liste est initialisée avec une partie des sorties de
pdftotext".
Cette liste reprend la structure xml de *pdftotext* à partir de la balise
*block*.
Les balises *page* ont été remplacées par un attribut de *blocks* donnant
le numéro de page, et les balises *flow* par un nombre incrémenté à chaque fois
que la balise est rencontrée.
Les balises *page* de pdftotext ont été remplacées par un attribut dans la balise *blocks* donnant
le numéro de page. Les balises *flow* de pdftotext ont été remplacées par un attribut dans la balise *blocks*.
La valeur de cet attribut est incrémenté à chaque fois
que la balise *flow* est rencontrée.
Ainsi, on peut identifier les blocs qui font partie d'un même flow.
Les éléments de la liste *blocks* ont donc la structure suivante :
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment