Commit 9c506ae0 authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent b6e9dfaa
......@@ -147,15 +147,31 @@ que la balise *flow* est rencontrée.
Ainsi, on peut identifier les blocs qui font partie d'un même flow.
Les éléments de la liste *blocks* ont donc la structure suivante :
- **page :** Le numéro de page.
- **flow :** Un identifiant unique pour chaque balise flow.
- **x_min**, **x_max**, **y_min** et **y_max** : Les coordonnées du bloc
- **blocks*:
- **page :** Le numéro de page.
- **flow :** Un identifiant unique pour chaque balise flow.
- **x_min**, **x_max**, **y_min** et **y_max** : Les coordonnées du bloc
dans la page
- **lines :** Une liste, contenant les lignes du bloc. C'est aussi une liste
- **h_min** et **h_max** : Les hauteurs minimum et maximum des lignes du
bloc (calculées à partir des valeurs *height* de chaque ligne,
voir ci-dessous).
- **nb_cars** et **nb_words** : Le nombre de caractères et de mots du bloc.
- **flags :** Une valeur sur 16 bits, initialisée à 0x0000, destinée à
accueillir le résultat binaire d'un certain nombre de traitements.
- **lines :** Une liste, contenant les lignes du bloc. C'est aussi une liste
de dictionnaires, contenant :
- **words :** Une autre liste de dictionnaires, qui contient :
- **text :** le mot tel que renvoyé par *pdftotext*.
- **text :** Le texte contenu dans cette ligne.
Il est composé de chaque mot de la ligne séparé d'une espace, sauf si
le premier mot est un unique caractère plus grand que les suivants
(dans ce cas on considère que c'est un effet de texte
et l'espace n'est pas ajoutée).
- **height :** La valeur ```yMax - yMin``` (des coordonnées de la ligne
renvoyées par *pdftotext*, que nous n'avons pas conservées).
- **nb_words**, **nb_cars** et **flags** : sont les mêmes que pour les
blocs, avec les informations relatives à la ligne de texte.
- **words :** Une autre liste de dictionnaires, qui contient :
- **text :** le mot tel que renvoyé par *pdftotext*.
- **height :** la hauteur de ligne, comme pour la structure *lines*,
Lors de l'extraction de ces informations depuis le résultat xml,
un certain nombre d'attributs sont calculés et ajoutés à la structure :
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment