Commit b6e9dfaa authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent 0d72daa6
...@@ -135,14 +135,15 @@ Le programme *pdf2blocks* commence par lancer la commande suivante : ...@@ -135,14 +135,15 @@ Le programme *pdf2blocks* commence par lancer la commande suivante :
pdftotext -bbox-layout -eol unix /path/to/file.pdf pdftotext -bbox-layout -eol unix /path/to/file.pdf
Le résultat de cette commande est stockée dans une liste python. Cette liste Le résultat de cette commande est stockée dans une liste python. Cette liste
a été nommée ***blocks***. Cette liste est initialisée avec les sorties de a été nommée ***blocks***. Cette liste est initialisée avec une partie des sorties de
pdftotext". pdftotext".
Cette liste reprend la structure xml de *pdftotext* à partir de la balise Cette liste reprend la structure xml de *pdftotext* à partir de la balise
*block*. *block*.
Les balises *page* ont été remplacées par un attribut de *blocks* donnant Les balises *page* de pdftotext ont été remplacées par un attribut dans la balise *blocks* donnant
le numéro de page, et les balises *flow* par un nombre incrémenté à chaque fois le numéro de page. Les balises *flow* de pdftotext ont été remplacées par un attribut dans la balise *blocks*.
que la balise est rencontrée. La valeur de cet attribut est incrémenté à chaque fois
que la balise *flow* est rencontrée.
Ainsi, on peut identifier les blocs qui font partie d'un même flow. Ainsi, on peut identifier les blocs qui font partie d'un même flow.
Les éléments de la liste *blocks* ont donc la structure suivante : Les éléments de la liste *blocks* ont donc la structure suivante :
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment