Commit ac4e307b authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent fed68d86
......@@ -175,30 +175,6 @@ Les éléments de la liste *blocks* ont donc la structure suivante :
- **height :** la hauteur du mot calculée correspondant à ```yMax - yMin``` des coordonnées du mot
renvoyées par *pdftotext*.
Lors de l'extraction de ces informations depuis le résultat xml,
un certain nombre d'attributs sont calculés et ajoutés à la structure :
###### Pour *blocks* :
- **h_min** et **h_max** : Les hauteurs minimum et maximum des lignes du
bloc (calculées à partir des valeurs *height* de chaque ligne,
voir ci-dessous).
- **nb_cars** et **nb_words** : Le nombre de caractères et de mots du bloc.
- **flags :** Une valeur sur 16 bits, initialisée à 0x0000, destinée à
accueillir le résultat binaire d'un certain nombre de traitements.
###### Pour *lines*
- **text :** Le texte contenu dans cette ligne.
Il est composé de chaque mot de la ligne séparé d'une espace, sauf si
le premier mot est un unique caractère plus grand que les suivants
(dans ce cas on considère que c'est un effet de texte
et l'espace n'est pas ajoutée).
- **height :** La valeur ```yMax - yMin``` (des coordonnées de la ligne
renvoyées par *pdftotext*, que nous n'avons pas conservées).
- **nb_words**, **nb_cars** et **flags** : sont les mêmes que pour les
blocs, avec les informations relatives à la ligne de texte.
###### Pour *words*
- **height :** la hauteur de ligne, comme pour la structure *lines*,
### pdftohtml
......@@ -207,7 +183,7 @@ Ensuite, le programme *pdf2blocks* lance la commande *pdftohtml* :
pdftohtml -xml -i -stdout /path/to/file.pdf
#### Les fontes renvoyées par *pdftohtml*
Les polices de caractères renvoyées par *pdftohtml* sont stockées dans une liste
Les fontes de caractères renvoyées par *pdftohtml* sont stockées dans une liste
python, nommée **fontspec** (du nom de la balise xml associée).
Les éléments de cette liste sont des dictionnaires python ayant la structure
suivante :
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment