Commit fed68d86 authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent 85ee7551
......@@ -148,30 +148,32 @@ Ainsi, on peut identifier les blocs qui font partie d'un même flow.
Les éléments de la liste *blocks* ont donc la structure suivante :
*blocks*:
- **page :** Le numéro de page.
- **flow :** Un identifiant unique pour chaque balise flow.
- **page :** Le numéro de page calculée à partir de la sortie de pdftotext.
- **flow :** Un identifiant unique pour chaque balise flow calculé à partie de la sortie de pdftotext.
- **x_min**, **x_max**, **y_min** et **y_max** : Les coordonnées du bloc
dans la page
dans la page données par pdftotext.
- **h_min** et **h_max** : Les hauteurs minimum et maximum des lignes du
bloc (calculées à partir des valeurs *height* de chaque ligne,
bloc (calculées à partir des valeurs *height* de chaque ligne du bloc,
voir ci-dessous).
- **nb_cars** et **nb_words** : Le nombre de caractères et de mots du bloc.
- **nb_cars** et **nb_words** : Le nombre de caractères et le nombre de mots du bloc calculés.
- **flags :** Une valeur sur 16 bits, initialisée à 0x0000, destinée à
accueillir le résultat binaire d'un certain nombre de traitements.
accueillir le résultat de processus de classification de blocs.
- **lines :** Une liste, contenant les lignes du bloc. C'est aussi une liste
de dictionnaires, contenant :
- **text :** Le texte contenu dans cette ligne.
- **text :** Le texte contenu dans cette ligne.
Ce texte est la concaténation du contenu des balises word de pdftotext.
Il est composé de chaque mot de la ligne séparé d'une espace, sauf si
le premier mot est un unique caractère plus grand que les suivants
(dans ce cas on considère que c'est un effet de texte
et l'espace n'est pas ajoutée).
- **height :** La valeur ```yMax - yMin``` (des coordonnées de la ligne
renvoyées par *pdftotext*, que nous n'avons pas conservées).
- **height :** La hauteur de ligne calculée correspondant à ```yMax - yMin``` des coordonnées de la ligne
renvoyées par *pdftotext*.
- **nb_words**, **nb_cars** et **flags** : sont les mêmes que pour les
blocs, avec les informations relatives à la ligne de texte.
blocs, avec les informations relatives à la ligne.
- **words :** Une autre liste de dictionnaires, qui contient :
- **text :** le mot tel que renvoyé par *pdftotext*.
- **height :** la hauteur de ligne, comme pour la structure *lines*,
- **text :** le mot contenu dans la balise word de *pdftotext*.
- **height :** la hauteur du mot calculée correspondant à ```yMax - yMin``` des coordonnées du mot
renvoyées par *pdftotext*.
Lors de l'extraction de ces informations depuis le résultat xml,
un certain nombre d'attributs sont calculés et ajoutés à la structure :
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment