diff --git a/src/py/README.md b/src/py/README.md
index f5daf3d95592df44a0ad695728bb85e4c9f7373f..efb45c610f54f81f4d585aee1c9e601e8bf3aef6 100644
--- a/src/py/README.md
+++ b/src/py/README.md
@@ -7,9 +7,9 @@ la structure logique (titre, sous-titre, paragraphe, ...) d'un document pdf.
 Pour ce faire, le programme utilise des outils d'extraction du texte contenu
 dans des fichiers pdf.
 
-Ce programme est Ã©crit en python 3. Il sâ€™intitule pdf2blocks.py. 
+Ce programme est Ã©crit en python (version 3). Il sâ€™intitule pdf2blocks.py.
 
-Il prend en entrÃ©e un fichier pdf, contenant du texte, des tableaux
+Il prend en argument un fichier pdf, contenant du texte, des tableaux
 et des images.
 
 ## Utilisation
@@ -23,38 +23,142 @@ Le rÃ©sultat est Ã©crit sur la sortie standard. Il utilise la syntaxe
 pour dÃ©crire les titres, sous-titres, â€¦, et sÃ©parer les paragraphes.
 
 Il utilise nÃ©anmoins 10 niveaux de titres et sous-titres, au lieu des six
-niveaux maximum du markdown. Ceci n'a pas d'incidence sur le rÃ©sultat.
-
-# &&&&&&&&&&&&&&&&&&&&&&&&&
+niveaux maximum du markdown. Ceci n'a pas d'incidence sur la compatibilitÃ©
+du rÃ©sultat avec le markdown.
+
+#### Exemple de rÃ©sultat :
+###### Markdown
+    ________________________________
+    *page 7*
+
+    ## ï‚ Vignoble Beaujolais â€“ Coteaux du
+    ## Lyonnais
+
+    ### DonnÃ©es du rÃ©seau : 27 parcelles renseignÃ©es sur 28
+
+    ### Stades phÃ©nologiques
+
+    #### CÃ©pages
+    Gamay
+
+    Chardonnay
+
+    #### Le plus tardif
+    baies de la taille d'un pois, les
+    grappes pendent (31)
+    les baies se touchent (31-33)
+
+    #### Majoritaire
+    les baies se touchent (31-33)
+
+    #### Le plus avancÃ©
+    fermeture de la grappe (33)
+
+###### Conversion html
+La syntaxe markdown est destinÃ©e Ã  Ãªtre transcrite directement en html.
+La sortie ci-dessus devient alors :
+
+    <hr />
+    <p><em>page 7</em></p>
+    <h2>ï‚ Vignoble Beaujolais â€“ Coteaux du</h2>
+    <h2>Lyonnais</h2>
+    <h3>DonnÃ©es du rÃ©seau : 27 parcelles renseignÃ©es sur 28</h3>
+    <h3>Stades phÃ©nologiques</h3>
+    <h4>CÃ©pages</h4>
+    <p>Gamay</p>
+    <p>Chardonnay</p>
+    <h4>Le plus tardif</h4>
+    <p>baies de la taille d'un pois, les
+    grappes pendent (31)
+    les baies se touchent (31-33)</p>
+    <h4>Majoritaire</h4>
+    <p>les baies se touchent (31-33)</p>
+    <h4>Le plus avancÃ©</h4>
+    <p>fermeture de la grappe (33)</p>
 
 ## DÃ©pendances
 
-Il utilise actuellement *pdftotext* et *pdftohtml*, deux outils basÃ©s
-sur la librairie poppler, dÃ©rivÃ©e de Xpdf, avec laquelle ils sont
-distribuÃ©s.
+*pdf2blocks* utilise actuellement *pdftotext* et *pdftohtml*, deux outils basÃ©s
+sur la librairie poppler, dÃ©rivÃ©e de Xpdf. Ces deux outils prennent en entrÃ©e
+un fichier pdf.
+
+#### pdftotext
+*pdftotext* est destinÃ© Ã  produire une sortie en texte brut,
+lisible dans une console texte par exemple.
+
+Il peut toutefois Ã©crire ses rÃ©sultats dans un format xml, avec la structure
+suivante :
+
+    <doc>
+      <page>
+        <flow>
+          <block>
+            <line>
+              <word>Un</word>
+              <word>mot</word>
+            </line>
+            (â€¦)
+
+Les balises *block*, *line* et *word* contiennent des informations de
+position, Ã  savoir les coordonnÃ©es absolues du plus petit rectangle qui
+contient l'Ã©lÃ©ment dÃ©signÃ©. Ces coordonnÃ©es sont exprimÃ©es Ã  l'aide de
+quatre attributs : *xMin*, *yMin*, *xMax*, *yMax*, qui semblent exprimÃ©s
+en pixels. En particulier, pour un mot, `yMax - yMin` correspond Ã  la taille
+de la police de caractÃ¨res exprimÃ©e en pixels (*px*).
+
+L'outil *pdftotext* est particuliÃ¨rement efficace pour identifier les longs
+paragraphes contenant plusieurs lignes. En revanche, il ne permet pas
+d'extraire correctement  la hiÃ©rarchie des titres et sous-titres.
+La sortie de lâ€™outil ne donne pas suffisamment d'informations sur les
+polices de caractÃ¨res : le nom de la police de caractÃ¨res,
+les styles (gras, italique, ...) et les couleurs du texte ne sont pas
+dÃ©crits.
+
+#### pdftohtml
+*pdftohtml* est un outil qui vise Ã  produire une page html qui ressemble
+au document pdf. Pour cela, il n'a pas besoin de respecter un ordre
+de lecture, car les Ã©lÃ©ments d'une page html peuvent Ãªtre localisÃ©s.
+En revanche, il contient une description prÃ©cise des polices de caractÃ¨res
+utilisÃ©es dans le document.
+
+PlutÃ´t qu'une page html, l'outil peut Ã©crire ses rÃ©sultats au format xml.
+
+Voici un exemple de sortie xml de l'outil *pdftohtml* :
+
+     <pdf2xml producer="poppler" version="0.80.0">
+     <page number="1" position="absolute" top="0" left="0" height="1262" width="892">
+     	<fontspec id="0" size="14" family="ABCDEE+Calibri" color="#000000"/>
+     	<fontspec id="1" size="10" family="ABCDEE+Verdana" color="#000000"/>
+     	<fontspec id="2" size="19" family="ABCDEE+Calibri,Bold" color="#000000"/>
+     	<fontspec id="3" size="16" family="ABCDEE+Calibri,Bold" color="#000000"/>
+     <text top="1216" left="76" width="16" height="17" font="0">1  </text>
+     <text top="1216" left="755" width="67" height="15" font="1">BSV nÂ° 15 </text>
+     <text top="403" left="87" width="239" height="21" font="2"><b>A RETENIR CETTE SEMAINE </b></text>
+     <text top="473" left="87" width="54" height="18" font="3"><b>MÃ©tÃ©o </b></text>
+
+On remarque que le texte n'est plus donnÃ© mot par mot mais ligne par ligne.
+Ce n'est pas tout Ã  fait exact : les lignes sont dÃ©coupÃ©es en segments
+de mÃªme fonte. Par exemple, la la ligne
+
+> Le 2<sup>nd</sup> grand Ã©vÃ¨nement,
 
-**pdftotext** peut gÃ©nÃ©rer un document xml contenant le texte du document
-pdf structurÃ© en pages, *flows* et *blocks*. La structure renvoyÃ©e est
-gÃ©nÃ©ralement plutÃ´t acceptable en termes de restitution du document
-pour une lecture dans une console texte.
+sera dÃ©coupÃ© en trois parties :
+- Le 2
+- nd
+- grand Ã©vÃ¨nement,
 
-Elle est particuliÃ¨rement efficace pour isoler de long paragraphes
-mais est inadaptÃ©e Ã  l'identification de le hiÃ©rarchie des titres
-et sous-titres car elle ne donne pas d'information sur la taille,
-les styles (gras, italique, ...) et les couleurs des polices de caractÃ¨re.
+Il en sera de mÃªme pour la ligne
 
-**pdftohtml** peut aussi gÃ©nÃ©rer un document xml, qui contient, pour chaque mot,
-sa police de caractÃ¨res, le style, la taille et la couleur qui y
-sont appliquÃ©s ; le but de cet outil Ã©tant de restituer une page html
-visuellement la plus proche possible du document initial.
+> Le ***petit*** papillon.
 
-Le rÃ©sultat de *pdf2blocks* est Ã©crit sur la sortie standard, en utilisant
-la syntaxe markdown afin de permettre une conversion facile dans
-diffÃ©rents formats. D'autres sorties pourraient Ãªtre envisagÃ©es.
+car un nouveau style (gras, italique) de la mÃªme police est dÃ©fini comme une
+nouvelle police. Cependant, rien, dans le fichier xml, n'indique ce dÃ©coupage.
+Il y a juste une succession de balises text. On peut toutefois se baser sur
+la valeur de l'attribut *top*. Mais celyui-ci n'est pas toujours Ã©gal
+dans une mÃªme ligne (notamment pour les indices et exposants).
 
-Le chapitre suivant dÃ©crit de quelle faÃ§on *pdf2blocks* rÃ©cupÃ¨re
-le rÃ©sultat de *pdftotext* et *pdftohtml*, et quels traitements
-sont appliquÃ©s.
+Enfin, le dÃ©coupage de colonnes fonctionne mal, et il arrive que du texte de
+deux colonnes successives se retrouve dans la mÃªme balise text.
 
 
 ## L'algorithme de pdf2blocks
@@ -64,78 +168,69 @@ Le programme *pdf2blocks* commence par lancer la commande suivante :
      pdftotext -bbox-layout -eol unix /path/to/file.pdf
 
 Le rÃ©sultat de cette commande est stockÃ©e dans une liste python. Cette liste
-a Ã©tÃ© mal-nommÃ©e ***blocks***, qui est devenu le terme utilisÃ© pour
+a Ã©tÃ© nommÃ©e ***blocks***, qui est devenu Ã  l'usage le terme utilisÃ© pour
 faire rÃ©fÃ©rence Ã  "la liste dans laquelle est stockÃ© le rÃ©sultat de
 pdftotext".
 
-Chaque Ã©lÃ©ment de cette liste est un dictionnaire python ayant
-la structure suivante :
+Cette liste reprend la structure xml de *pdftotext* Ã  partir de la balise
+*block*, qui est le niveau de dÃ©coupage qui nous a paru le mieux adaptÃ©.
+Les balises *page* ont Ã©tÃ© remplacÃ©es par un attribut de *blocks* donnant
+le numÃ©ro de page, et les balises *flow* par un nombre incrÃ©mentÃ© Ã  chaque fois
+que la balise est rencontrÃ©e.
+Ainsi, on peut identifier les blocs qui font partie d'un mÃªme flow.
+
+Les Ã©lÃ©ments de la liste *blocks* ont donc la structure suivante :
 
 - **page :** Le numÃ©ro de page.
-- **flow :** Un numÃ©ro, incrÃ©mentÃ© Ã  chaque fois qu'une balise "flow" est
-  rencontrÃ©e, afin d'identifier quels blocs appartiennent Ã  un mÃªme *flow*.
-  Ceci n'est actuellement pas utilisÃ© dans les traitements.
-- **x_min**, **x_max**, **y_min** et **y_max** : Les coordonnÃ©es du bloc
-  dans la page.
-- **h_min** et **h_max** : Le hauteur minimum et maximum des lignes du
-  bloc (calculÃ©e).
-- **nb_cars** et **nb_words** : Le nombre de caractÃ¨res et de mots du bloc
-  (calculÃ©s aussi).
+- **flow :** Un identifiant unique pour chaque balise flow.
+- #-# **x_min**, **x_max**, **y_min** et **y_max** : Les coordonnÃ©es du bloc
+  dans la page
+- **lines :** Une liste, contenant les lignes du bloc. C'est aussi une liste
+  de dictionnaires, contenant :
+    - **words :** Une autre liste de dictionnaires, qui contient :
+        - **text :** le mot tel que renvoyÃ© par *pdftotext*.
+
+Lors de l'extraction de ces informations depuis le rÃ©sultat xml,
+un certain nombre d'attributs sont calculÃ©s et ajoutÃ©s Ã  la structure :
+
+###### Pour *blocks* :
+- #-# **h_min** et **h_max** : Les hauteurs minimum et maximum des lignes du
+  bloc (calculÃ©es Ã  partir des valeurs *height* de chaque ligne,
+  voir ci-dessous).
+- #-# **nb_cars** et **nb_words** : Le nombre de caractÃ¨res et de mots du bloc.
 - **flags :** Une valeur sur 16 bits, initialisÃ©e Ã  0x0000, destinÃ©e Ã 
   accueillir le rÃ©sultat binaire d'un certain nombre de traitements.
-- **lines :** Une liste, contenant les lignes du bloc. C'est aussi une liste
-  de dictionnaires, ayant la structure suivante :
-    - **text :** Le texte contenu dans cette ligne. Cette ligne n'est pas
-      un rÃ©sultat direct de *pdftotext*, dont le rÃ©sultat est donnÃ© mot par mot.
-      Il est composÃ© de chaque mot de la ligne sÃ©parÃ© d'une espace, sauf si
-      le premier mot est un unique caractÃ¨re plus grand que les suivants
-      (dans ce cas on considÃ¨re que c'est un effet de texte).
-    - **height :** La valeur ```yMax - yMin``` (des coordonnÃ©es de la ligne
-      renvoyÃ©es par *pdftotext*).
-    - **nb_words**, **nb_cars** et **flags** : sont les mÃªmes que pour les 
-      blocs, avec les informations relatives Ã  la ligne.
-    - **words :** Une autre liste de dictionnaires, avec la structure :
-        - **height :** la hauteur de ligne, comme pour la structure *lines*,
-        - **text :** qui est finalement le mot tel que renvoyÃ© par *pdftotext*. 
-
-### pdftohtml
-Ensuite, le programme lance la commande *pdftohtml* :
-
-     pdftohtml -xml -i -stdout /path/to/file.pdf
-
-Le rÃ©sultat de cette commande est aussi un fichier xml, contenant principalement
-deux informations :
-
-- les polices de caractÃ¨res utilisÃ©es dans le document,
-- le texte composant le document, avec les polices de caractÃ¨res associÃ©es.
 
-Le texte est renvoyÃ© par segments de mÃªme police. Par exemple, la la ligne
+###### Pour *lines*
+- **text :** Le texte contenu dans cette ligne.
+  Il est composÃ© de chaque mot de la ligne sÃ©parÃ© d'une espace, sauf si
+  le premier mot est un unique caractÃ¨re plus grand que les suivants
+  (dans ce cas on considÃ¨re que c'est un effet de texte
+  et l'espace n'est pas ajoutÃ©e).
+- **height :** La valeur ```yMax - yMin``` (des coordonnÃ©es de la ligne
+  renvoyÃ©es par *pdftotext*, que nous n'avons pas conservÃ©es).
+- #-# **nb_words**, **nb_cars** et **flags** : sont les mÃªmes que pour les
+  blocs, avec les informations relatives Ã  la ligne de texte.
 
-> Le 2<sup>nd</sup> grand Ã©vÃ¨nement,
-
-sera dÃ©coupÃ© en trois parties :
-- Le 2
-- nd
-- grand Ã©vÃ¨nement,
+###### Pour *words*
+- **height :** la hauteur de ligne, comme pour la structure *lines*,
 
-Il en sera de mÃªme pour la ligne
 
-> Le ***petit*** papillon.
+### pdftohtml
+Ensuite, le programme *pdf2blocks* lance la commande *pdftohtml* :
 
-car un nouveau style (gras, italique) de la mÃªme police est dÃ©fini comme une
-nouvelle police.
+     pdftohtml -xml -i -stdout /path/to/file.pdf
 
-#### Les polices de caractÃ¨res renvoyÃ©es par *pdftohtml*
+#### Les fontes renvoyÃ©es par *pdftohtml*
 Les polices de caractÃ¨res renvoyÃ©es par *pdftohtml* sont stockÃ©es dans une liste
-python, nommÃ©e **fontspec** (du nom de la balise xml associÃ©e) et rapidement
-rÃ©duite en **fonts**. Les Ã©lÃ©ments de cette liste sont des dictionnaires python
-ayant la structure suivante :
-
-- **id :** Un identifiant unique pour dÃ©signer la police de caractÃ¨res, utilisÃ©
-  pour associer une portion de texte Ã  sa police.
-- **size :** La taille de police de caractÃ¨res, en "pixels" (px).
-- **family :** Le nom de la police de caractÃ¨res, Ã©ventuellement suivi 
-  d'attributs de style sÃ©parÃ©s par des virgules. Exemples :
+python, nommÃ©e **fontspec** (du nom de la balise xml associÃ©e).
+Les Ã©lÃ©ments de cette liste sont des dictionnaires python ayant la structure
+suivante :
+
+- **id :** Un identifiant unique pour dÃ©signer la fonte.
+- **size :** La taille de la fonte, en "pixels" (px).
+- **family :** Le nom de la fonte, tel que renvoyÃ© par *pdftohtml*,
+  Ã©ventuellement suivi d'attributs de style sÃ©parÃ©s par des virgules. Exemples :
     - "ABCDEE+Calibri"
     - "ABCDEE+Calibri,Bold"
     - "ABCDEE+Calibri,BoldItalic"
@@ -143,132 +238,144 @@ ayant la structure suivante :
 - **color :** La couleur du texte, en format html. Exemples :
     - "#000000"
     - "#b366b3"
+- **nb_cars** n'est pas prÃ©sent dans le rÃ©sultat xml de la commande
+  *pdftohtml*. Il est calculÃ© lors de l'extraction du texte et contient
+  le nombre de caractÃ¨res utilisant cette fonte.
 
 #### Le texte renvoyÃ© par la commande *pdftohtml*
-Les segments de texte renvoyÃ©s par *pdftohtml* reprÃ©sentant la plupart du temps
-une ligne de texte entiÃ¨re, la liste qui les contient a Ã©tÃ© nommÃ©e **lines**,
-ce qui s'est avÃ©rÃ© assez mal choisi. Ses Ã©lÃ©ments ont la structure suivante :
+Les segments de texte renvoyÃ©s par *pdftohtml* reprÃ©sentent la plupart du temps
+une ligne de texte entiÃ¨re. La liste qui les contient a Ã©tÃ© nommÃ©e **segments**.
+Ses Ã©lÃ©ments, extraits du rÃ©sultat xml de *pdftohtml*,
+ont la structure suivante :
 
-- **text :** Le texte.
-- **font :** L'*id* de sa police de caractÃ¨res (voir *fontspec* ci-dessus).
-- **page :** Le numÃ©ro de page.
-- **top**, **left**, **width** et **height** : Ces attributs sont ceux de la
-  balise xml "*text*" et permettent de localiser la portion de texte dans la
-  page.
+- **text :** Le texte du segment, contenu de la balise <text> de pdftohtml.
+- **font :** L'identifiant de la fonte pour ce segment.
+- **page :** Le numÃ©ro de page du segment.
+- **top**, **left**, **width** et **height** : Les coordonnÃ©es de la zone de
+  texte dans la page.
 
 ### Traitements
 Ã€ ce point, nous avons trois listes, **blocks**,
-**fontspec** et **lines**, dont la structure est dÃ©crite ci-dessus.
+**fontspec** et **segments**, dont la structure est dÃ©crite ci-dessus.
 
 La plupart des traitements sont effectuÃ©s sur la liste **blocks**, qui contient
-une base de la structure du document. Le but est d'identifier le rÃ´le de chacun
-des blocs (titre, sous-titre, ...).
+une base de la structure logique du document. Le but est d'identifier le rÃ´le
+de chacun des blocs (titre, sous-titre, ...).
 
 La liste **blocks** contient le rÃ©sultat de la commande *pdftotext*, dont le
 but est de restituer un texte lisible de haut en bas dans une console texte.
 C'est pourquoi nous considÃ©rons que les blocs sont ordonnÃ©s suivant le sens
-de lecture et aucun traitement n'est effectuÃ© pour rÃ©-ordonner les blocs.
+de lecture et aucun traitement n'est effectuÃ© pour les rÃ©-ordonner.
 
 Nous avons remarquÃ© quelques erreurs d'ordonnancement des blocs, notamment dans
-le cas de documents multi-colonnes. Ceci est dÃ» aux limites de l'algorithme
-de *pdftotext*, mais n'ayant pas de meilleur algorithme Ã  suggÃ©rer, l'ordre
-des blocs est conservÃ© tel quel pour le moment.
+le cas de documents multi-colonnes. Ceci est dÃ» aux limites de *pdftotext*.
 
 Les chapitres suivants dÃ©crivent les traitements, effectuÃ©s sÃ©quentiellement,
 sur les donnÃ©es issues des deux commandes *pdftotext* et *pdftohtml*.
 
-#### Taille de la police par dÃ©faut
-La taille de police de caractÃ¨res la plus utilisÃ©e (en nombre de caractÃ¨res)
-est considÃ©rÃ©e Ãªtre la police par dÃ©faut.
+#### Taille de la fonte par dÃ©faut
+La fonte la plus utilisÃ©e (en nombre de caractÃ¨res)
+est considÃ©rÃ©e Ãªtre la fonte par dÃ©faut.
 
 Pour des raisons historiques (un grand nombre d'essais de traitements ont
-d'abord Ã©tÃ© faits), il a d'abord Ã©tÃ© comptÃ© les caractÃ¨res pour chaque hauteur
-de ligne (arrondi Ã  l'entier le plus proche de l'attribut **height** dans les
-lignes de la structure de **blocks**, qui semble correspondre Ã  la taille de
-la police de caractÃ¨res en pixels). 
+d'abord Ã©tÃ© faits), ce dÃ©compte a Ã©tÃ© effectuÃ© sur la liste **blocks**.
+Il consiste Ã  compter le nombre de caractÃ¨re pour chaque hauteur de ligne
+(attribut *height* des listes **lines**). Plus prÃ©cisÃ©ment, la hauteur
+de ligne considÃ©rÃ©e Ã©tait l'entier le plus proche de la valeur de *height*.
 
 Il aurait Ã©tÃ© possible d'effectuer un comptage plus prÃ©cis Ã  l'aide des listes
-**lines** et **fontspec**, et mÃªme d'identifier prÃ©cisÃ©ment la police par
-dÃ©faut, toutefois il s'est avÃ©rÃ© que l'imprÃ©cision de la premiÃ¨re mÃ©thode
-Ã©tait plus efficace. En effet, il n'est pas rare que les attributs de la police
+**lines** et **fontspec**, et mÃªme d'identifier prÃ©cisÃ©ment la fonte par
+dÃ©faut. Toutefois il s'est avÃ©rÃ© que l'imprÃ©cision de la premiÃ¨re mÃ©thode
+Ã©tait plus efficace. En effet, il n'est pas rare que les attributs de la fonte
 par dÃ©faut changent au cours du document, par inattention du rÃ©dacteur ou
-du fait de co-Ã©criture (le texte Ã©tant alors Ã©crit Ã  l'aide de logiciels avec
+du fait de co-Ã©critures (le texte Ã©tant alors Ã©crit Ã  l'aide de logiciels avec
 des paramÃ©trages diffÃ©rents, sur diffÃ©rentes machines, etc...).
 
-Choisir un taille de police par dÃ©faut, permet ensuite de faire de nombreuses
-hypothÃ¨ses, comme par exemple *les polices plus petites sont utilisÃ©es pour*
-*les renvois en bas de page, les commentaires ou l'ours et peuvent*
-*Ãªtre ignorÃ©es*, ou encore *les polices plus grandes sont probablement*
-*des titres*, â€¦
+DÃ©terminer la taille de la fonte par dÃ©faut permet de faire de nombreuses
+hypothÃ¨sesÂ sur lâ€™usage du texte possÃ©dant une fonte donnÃ©e :
+Par exemple,  les fontes de tailles plus petites que la fonte par dÃ©faut
+sont utilisÃ©es pour les bas de page, les commentaires ou l'ours.
+Les fontes de taille plus grandes que la fonte par dÃ©faut sont utilisÃ©es
+pour les titres de section.
 
-Pour faciliter les tests sur ces diffÃ©rentes hypothÃ¨ses, les Ã©lÃ©ments de
-**blocks** on Ã©tÃ© marquÃ©s ainsi :
+Les Ã©lÃ©ments de la liste blocks on Ã©tÃ© classÃ©es en fonction de  leur taille
+de fonte. Trois classes ont Ã©tÃ© dÃ©finies : small font, big font et default font.
+Les rÃ©sultats de cette classification sont stockÃ©s dans la clÃ© flags
+des dictionnaires de la liste **blocks**. Ainsi :
 
-> - Si blocks[i]['h_max'] < default_font_size alors blocks[i]['flags'] |= SMALL_FONT
-> - Si blocks[i]['h_min'] > default_font_size alors blocks[i]['flags'] |= BIG_FONT`
-> - Si if blocks[i]['lines'][j]['height'] < default_font_size alors blocks[i]['lines'][j]['flags'] |= SMALL_FONT
-> - Si blocks[i]['lines'][j]['height'] > default_font_size alors blocks[i]['lines'][j]['flags'] |= BIG_FONT`
+> - Si `blocks[i]['h_max'] < default_font_size` alors `blocks[i]['flags'] |= SMALL_FONT`
+> - Si `blocks[i]['h_min'] > default_font_size` alors `blocks[i]['flags'] |= BIG_FONT`
+> - Si `blocks[i]['lines'][j]['height'] < default_font_size` alors
+  `blocks[i]['lines'][j]['flags'] |= SMALL_FONT`
+> - Si `blocks[i]['lines'][j]['height'] > default_font_size` alors
+  `blocks[i]['lines'][j]['flags'] |= BIG_FONT`
 
 
 #### DÃ©tection des pieds de page
 
-On appelle "pied de page" la numÃ©rotation des pages, quelques mots pour
-identifier le documents, comme par exemple "BSV nÂ°17 du 15 juin 2019",
-et tout ce qui est Ã©crit de la mÃªme faÃ§on en bas de chaque page du document.
+Les "pieds de page" dâ€™un document sont une zone de texte rÃ©pÃ©tÃ©e
+Ã  chaque fin de page contenant par exemple le numÃ©ro de la page
+et un texte caractÃ©ristique du document comme son titre ou ses auteurs.
 
 Les notes de bas de page ne sont pas considÃ©rÃ©s comme faisant partie
 des pied de page.
 
-L'algorithme consiste Ã  tester si la derniÃ¨re ligne de chaque page est
-la mÃªme, en ne considÃ©rant que les caractÃ¨res alphabÃ©tiques ([a-zA-Z]),
-afin de ne pas prendre en compte une Ã©ventuelle numÃ©roation de pages.
+L'algorithme utilise les listes *lines* contenues dans **blocks**.
+Il consiste Ã  tester si la derniÃ¨re ligne de chaque page
+a le mÃªme contenu textuel, en ne considÃ©rant que les caractÃ¨res alphabÃ©tiques
+([a-zA-Z]). Les caractÃ¨res numÃ©riques ne sont pas pris en compte afin que
+les numÃ©ros de pages soient considÃ©rÃ©s comme des pieds de page.
 
-Si c'est le cas, alors on teste ensuite l'avant-derniÃ¨re ligne,
-et ainsi de suite.
+Tant que des lignes sont dÃ©tectÃ©es comme Ã©tant des pieds de page,
+on teste la ligne prÃ©cÃ©dente, et ainsi de suite.
 
-De la mÃªme faÃ§on que pour les tailles de police de caractÃ¨re, les lignes
+De la mÃªme faÃ§on que pour les tailles de fontes, les lignes
 trouvÃ©es sont marquÃ©es en utilisant le marqueur BOTTOM_PAGE.
 
 
-#### Attribution de polices de caractÃ¨res aux blocs
-Il s'agit d'attribuer l'*id* d'une police de **fontspec** Ã  chaque ligne
+#### Attribution de fontes aux blocs
+Il s'agit d'attribuer l'*id* d'une fonte de **fontspec** Ã  chaque ligne
 de la liste **blocks**.
 
-**Afin d'aviter les mÃ©prises** entre la liste **lines** (utilisÃ©e ici) et
-la liste de mÃªme nom que l'on trouve dans la structure de **blocks**, nous
-appellerons cette derniÃ¨re ***b-lines*** (pour *block-lines*).
+Par simplification de langage, on parlera de la liste **lines** pour dÃ©signer
+la concatÃ©nation des sous-listes *lines* de la liste **blocks**. Parcourir
+la liste **lines** consiste Ã  considÃ©rer dans l'ordre les lignes renvoyÃ©es
+par la commande *pdftotext*. De mÃªme, parcourir la liste de **segments**
+consiste Ã  considÃ©rer les lignes de texte renvoyÃ©es par la commande *pdftohtml*.
 
-L'algorithme consiste, pour chaque *b-line*, Ã  calculer sa
+L'algorithme consiste, pour chaque ligne de **lines**, Ã  calculer sa
 [distance de Levenshtein](https://en.wikipedia.org/wiki/Levenshtein_distance)
-avec chaque ligne de la mÃªme page dans la liste **lines**.
-La ligne ayant le meilleur score (donc la distance la plus faible) est
-considÃ©rÃ©e comme Ã©tant celle qui correspond, et sa police de caractÃ¨res est
-attribuÃ©e Ã  la *b-line*.
+avec chaque ligne de la mÃªme page dans la liste **segments**.
+Le segment donnant le meilleur score (donc la distance la plus faible) est
+considÃ©rÃ© comme Ã©tant celui qui correspond Ã  la ligne. On attribue alors Ã  cette
+ligne la fonte du segment correspondant.
 
-Ce traitement est nÃ©cessaire du fait de la segmentation des lignes renvoyÃ©es
-par *pdftohtml*.
+Ce calcul de distance est nÃ©cessaire du fait de la segmentation des lignes
+renvoyÃ©es par *pdftohtml*, qui ne correspondent pas exactement aux lignes
+renvoyÃ©es par *pdftotext*. Par ailleurs, l'ordre des lignes dans une mÃªme
+page est parfois diffÃ©rent entre les deux outils.
 
 Ã€ noter que cet algorithme n'est pas du tout optimisÃ©. Il a Ã©tÃ© Ã©crit pour
 tester le principe, qui semble satisfaisant, mais il nÃ©cessite d'Ãªtre
 rÃ©Ã©crit pour que son exÃ©cution soit plus rapide.
 
 
-#### Regroupement de polices de caractÃ¨res
-L'objectif est de rÃ©duire autant que possible le nombre de polices de caractÃ¨res
+#### Regroupement de fontes
+L'objectif est de rÃ©duire autant que possible le nombre de fontes utilisÃ©es
 pour Ã©viter de polluer l'algorithme de dÃ©termination du rÃ´le de chaque bloc.
-Dans l'idÃ©al, une police est utilisÃ©e pour les titres de niveau 1, une autre
+Dans l'idÃ©al, une fonte est utilisÃ©e pour les titres de niveau 1, une autre
 pour les titres de niveau 2, et ainsi de suite, ce qui permet de dÃ©duire
-la structure du document en regardant la succession des polices de caractÃ¨res.
+la structure du document en regardant la succession des fontes.
 
 Ce modÃ¨le idÃ©al n'est pas celui qui est gÃ©nÃ©ralement rencontrÃ©, et l'objectif
 est ici de s'en rapprocher.
 
 ##### PremiÃ¨re hypothÃ¨se, non retenue
-Une premiÃ¨re tentative a Ã©tÃ© faite de regrouper toutes les polices de mÃªme
-famille, mÃªme taille et mÃªme couleur en une seule, indÃ©pendamment des styles
-utilisÃ©s, considÃ©rant que ceux-ci servaient uniquement Ã  mettre du texte
-en Ã©vidence. Il s'est avÃ©rÃ© que cette hypothÃ¨se donnais de mauvais rÃ©sultats,
-une simple mise en gras ou gras-italique Ã©tant souvent utilisÃ©e pour un titre.
+La premiÃ¨re hypothÃ¨se de travail a Ã©tÃ© de considÃ©rer comme identiques les fontes
+d'une mÃªme police, mÃªme taille et mÃªme couleur qui nâ€™avaient pas le meme style
+(gras, italique, â€¦). Il s'est avÃ©rÃ© que cette hypothÃ¨se donnait de mauvais
+rÃ©sultats, une simple mise en gras ou gras-italique Ã©tant souvent utilisÃ©e
+pour un titre.
 
 Il arrive mÃªme, et ce n'est pas rare, que l'usage d'un Ã©lÃ©ment de style sur
 la police par dÃ©faut soit utilisÃ© non pas pour le dernier niveau de titre
@@ -278,9 +385,9 @@ donne des rÃ©sultats dÃ©sastreux pour la reconnaissance de la structure.
 Cette hypothÃ¨se a donc Ã©tÃ© abandonnÃ©e.
 
 ##### Seconde proposition
-Lors de l'attribution d'une police de caractÃ¨res aux lignes des blocs,
-un prÃ©-traitement, destinÃ© Ã  amÃ©liorer la reconnaissance des lignes,
-est effectuÃ© sur la liste **lines**. Celui-ci consiste Ã  identifier
+Lors de l'attribution d'une fonte aux lignes des blocs,
+un prÃ©-traitement, destinÃ© Ã  rendre plus efficace la reconnaissance,
+est effectuÃ© sur la liste des **segments**. Celui-ci consiste Ã  identifier
 les segments de texte d'une mÃªme ligne, en se basant sur les coordonnÃ©es
 de localisation (et essentiellement sur la valeur de l'attribut *top*).
 
@@ -290,7 +397,7 @@ en Ã©vidence de texte soit rÃ©alisÃ©e en changeant la couleur de la police
 de caractÃ¨res par exemple).
 
 La seconde proposition consiste donc Ã  unifier toutes les polices de caractÃ¨res
-rencontrÃ©es sur une mÃªme ligne.
+qui auront Ã©tÃ© rencontrÃ©es sur une mÃªme ligne.
 
 Il s'agit donc de considÃ©rer que si deux polices de caractÃ¨res sont utilisÃ©es
 dans une mÃªme ligne, alors il s'agit d'une mise en Ã©vidence de texte et que
@@ -305,139 +412,38 @@ celles reconnues comme pied de page, marquÃ©es BOTTOM_PAGE.
 Certaines lignes ne comportant aucun caractÃ¨re alphanumÃ©rique sont
 aussi ignorÃ©es.
 
-L'algorithme consiste Ã  exÃ©cuter sÃ©quentiellement les Ã©tapes suivantes :
-
-1. On effectue un comptage des caractÃ¨res pour chaque police de caractÃ¨res
-  (aprÃ¨s avoir appliquÃ© les mÃ©thodes d'unification dÃ©crites ci-dessus).
-  La police la plus utilisÃ©e est dÃ©signÃ©e par *default_font*.
-1. Une liste contenant la succession des identifiants de polices de caractÃ¨res
-  est crÃ©Ã©e, associÃ©e Ã  la liste qui compte le nombre de lignes successives dans
-  cette police. Par exemple, l'extrait ci-dessous (entre crochets, l'identifiant
-  de la police de caractÃ¨res) :
-
-        [3] OÃDIUM
-        [5] ElÃ©ments de biologie
-        [4] Situation actuelle
-        [2] Des contaminations sur grappes sont observÃ©es (â€¦)
-        [2] avec symptÃ´mes dâ€™oÃ¯dium (â€¦)
-        [2] la plupart des parcelles sont indemnes.
-        [4] Analyse de risque
-        [2] La sensibilitÃ© de la vigne est (â€¦)
-        [2] Le risque de nouvelles contaminations est trÃ¨s faible(â€¦)
-        [2] Faites le point sur lâ€™Ã©tat sanitaire de vos parcelles.
-
-
-    donnera les listes suivantes :
-
-    > - **t** : 3 5 4 2 4 2 *(identifiants de polices)*
-    > - **n** : 1 1 1 3 1 3 *(nombre de lignes)*
-
-1. Pour toute police de caractÃ¨res de **t**, le plus grand nombre de lignes est
-  stockÃ©, avec un attribut nommÃ© *maxl*, dans un dictionnaire **f**.
-
-    Dans l'exemple qui prÃ©cÃ¨de, **f** contient :
-
-        f : { '2' : { maxl:3 },  '3' : { maxl:1 },
-              '4' : { maxl:1 },  '5' : { maxl:1 } }
-
-1. Ensuite, considÃ©rant qu'un titre ne peut excÃ©der un certain nombre de lignes
-  (actuellement deux, stockÃ© dans un paramÃ¨tre nommÃ© TITLE_MAX_LINES),
-  il est dÃ©fini :
-
-        f['id']['isnt_title'] = (f['id']['maxl'] > TITLE_MAX_LINES)
-
-    Une exception toutefois : la derniÃ¨re police de caractÃ¨res du tableau **t**
-    n'est pas un titre, car un document ne se termine pas par un titre.
-
-    Cette exception a aussi pour but de ne pas se retrouver dans la situation
-    oÃ¹ toutes les polices de caractÃ¨res seraient identifiÃ©es comme utilisÃ©es
-    pour un titre (une des prÃ©conditions de l'algorithme Ã©tant qu'au moins une
-    police de caractÃ¨res n'est pas associÃ©e Ã  des titres).
-
-1. Un tableau **b**, Ã  deux dimensions, est dÃ©fini ainsi :
-
-        b[i][j] = Nombre de transitions de la police *i* vers *j*
-
-    Dans l'exemple ci-dessus, **b** contiendrait :
-
-    |  j \ i | 2 | 3 | 4 | 5 | *commentaires* |
-    | :----: |:-:|:-:|:-:|:-:|:----------- |
-    |  **2** |   |   | 2 |   |â† Deux transitions de la police 4 vers 2 |
-    |  **3** |   |   |   |   |  |
-    |  **4** | 1 |   |   | 1 |â† Une transition de 2 Ã  4 et une de 5 Ã  4 |
-    |  **5** |   | 1 |   |   |â† â€¦et une transition de 3 Ã  5. |
-
-    *(les cases vides sont des zÃ©ros mais n'on pas Ã©tÃ© remplies pour plus*
-    *de lisibilitÃ©)*
-
-1. Dans **f**, crÃ©ation d'un attribut nommÃ© *'deep'* (au lieu de *depth*, 
-  dÃ©solÃ©), initialisÃ© ainsi :
-
-         f['id']['deep'] = 0 si f['id']['isnt_title'] est vrai.
-
-1. Ensuite, Ã  l'aide de la table **b**, la valeur *deep* de toute police de
-  caractÃ¨res dont le successeur a une valeur connue pour *deep* est calculÃ©e,
-  en se basant sur les rÃ¨gles suivantes : value of any font
-
-    1. S'il n'y a qu'une seule transition, on considÃ¨re que les deux polices
-      de caractÃ¨res dÃ©signent des Ã©lÃ©ments de mÃªme niveau (le nombre de
-      transitions minimum Ã  considÃ©rer est un paramÃ¨tre).
-    1. Sinon, si elle n'est pas dÃ©jÃ  connue, la valeur de *deep* est celle
-      du successeur, incrÃ©mentÃ©e de 1.
-
-    Ceci est rÃ©pÃ©tÃ© jusqu'Ã  ce qu'aucune valeur de *deep* nouvelle ne soit
-    affectÃ©e. Le fait d'avoir mis Ã  0 le *deep* de la derniÃ¨re police 
-    de caractÃ¨res du tableau **t** garantit que toutes les polices de caractÃ¨res
-    ont Ã©tÃ© prises en compte (car toute autre police prÃ©cÃ¨de celle
-    de la derniÃ¨re ligne).
-
-1. Pour finir, les valeurs de *deep* sont inversÃ©es (on passe de [0..max_deep]
-  Ã  [max_deep..0])
-
-  Le rÃ©sultat, appliquÃ© Ã  l'exemple ci-dessus, est :
-
-  > |  font    | 2 | 3 | 4 | 5 |
-  > | :------: |:-:|:-:|:-:|:-:|
-  > | **deep** | 1 | 0 | 0 | 0 |
-
-  ce qui est pauvre car l'exemple ne comporte qu'une unique succession
-  de titre et sous-titres, mais si on enrichit l'extrait en y ajoutant
-  les lignes suivantes :
-
-       [3] TORDEUSES
-       [5] ElÃ©ments de biologie
-       [4] Situation actuelle
-       [2] Cochylis : 0 Ã  10 captures (â€¦)
-
-  alors la structure devient :
-
-  > |  font    | 2 | 3 | 4 | 5 |
-  > | :------: |:-:|:-:|:-:|:-:|
-  > | **deep** | 3 | 0 | 2 | 1 |
-
-
-
-
-
-## Source files
-
-*(Ã€ rÃ©actualiser)*
-
-### pdf2blocks.py
-
-The main program. It calls differnt functions written in p2b_*.py files.
-
-### p2b_config.py
-
-Has to be edited to adjust parameters for execution of pdf2blocks.py.
-
-#### CMD_PDFTOTEXT and CMD_PDFTOHTML
-Should contain full path and name of *pdftotext* and *pdftohtml* binaries.
-
-### p2b_file.py
-
-Contains functions for reading pdf files.
-
-### p2b_utils.py
-
-Contains some utlities, mostly used for debugging puposes.
+L'algorithme utilise le jeu "rÃ©duit" de fontes, c'est Ã  dire les fontes qui
+restent aprÃ¨s que le regroupement de fontes dÃ©crit ci-dessus est effectuÃ©.
+
+Pour chacune de ces fontes, on attribue un indicateur *isnt_title*, basÃ© sur
+l'hypothÃ¨se qu'un titre ne comporte pas plus de deux lignes. Autrement dit,
+s'il arrive que le nombre de lignes successives dans une mÃªme fonte excÃ¨de
+une constante nommÃ©e TITLE_MAX_LINES (dont la valeur est actuellement 2),
+alors on considÃ¨re que cette fonte n'est pas utilisÃ©e pour un titre.
+
+D'autre part, on fait l'hypothÃ¨se que la derniÃ¨re fonte utilisÃ©e ne peut Ãªtre
+une fonte de titre. Autrement dit, on considÃ¨re qu'un document ne se termine
+jamais par un titre.
+
+On attribue ensuite Ã  chaque fonte une valeur de profondeur :
+
+- une fonte marquÃ©e *isnt_title* a une profondeur de 0,
+- on s'intÃ©resse ensuite aux fontes qui prÃ©cÃ¨dent, dans le document,
+  les fontes dont la profondeur est connue. Pour celles-ci :
+  - s'il n'y a qu'une seule occurence, on leur attribue une profondeur
+    identique (une fonte qui ne prÃ©cÃ¨de qu'une seule fois dans le document
+    une autre fonte est considÃ©rÃ©e de mÃªme niveau),
+  - s'il y a plusieurs occurences alors la profondeur est incrÃ©mentÃ©e (s'il
+    arrive plusieurs fois qu'une fonte prÃ©cÃ¨de immÃ©diatement une autre, on
+    considÃ¨re qu'elle en est un titre).
+
+Le dernier point est exÃ©cutÃ© jusqu'Ã  ce qu'aucune nouvelle fonte ne soit
+marquÃ©e. On notera que la condition qui consiste Ã  dire que la derniÃ¨re fonte
+utilisÃ©e ne peut Ãªtre un titre, a pour consÃ©quence que toutes les fontes auront
+une valeur de profondeur dÃ©terminÃ©e Ã  l'issue de ce traitement.
+
+La structure proposÃ©e pour le document s'appuiera sur l'inverse de la valeur
+de profondeur. Par exemple, si les profondeurs calculÃ©es ont des valeurs entre
+0 et 3, on considÃ¨rera que la fonte de profondeur 3 est utilisÃ©e pour un premier
+niveau de titre, la fonte de profondeur 2 pour des titre de niveau 2, et ainsi
+de suite. La profondeur de 0 dÃ©signant ce qui constitue le texte proprement dit.
diff --git a/src/py/p2b.py b/src/py/p2b.py
new file mode 100644
index 0000000000000000000000000000000000000000..0b80c61742793d08f3a3171fa0eb02dcf133587f
--- /dev/null
+++ b/src/py/p2b.py
@@ -0,0 +1,649 @@
+import xml.etree.ElementTree as ET
+import os
+import sys
+import re
+
+# https://unix.stackexchange.com/questions/238180/execute-shell-commands-in-python
+import subprocess
+
+from p2b_utils import levenshtein
+
+### Script pour faire tout le corpus :
+# D=~/Boulot/Ontology/BSV/tmp/Corpus/2019/Viticulture; for i in ${D}/*.pdf; do j=$( basename "$i" | sed -e 's/\.pdf//' ); echo $j; python p2b.py ${D}/$j | tee ${D}/${j}.md | markdown -o ${D}/${j}.html ; done
+
+
+CMD_PDFTOTEXT = '/usr/sbin/pdftotext'
+CMD_PDFTOHTML = '/usr/sbin/pdftohtml'
+
+LEFT_THRESHOLD = 25 # In p2b_text_utils.add_lines() : the max horizontal space
+                    # to consider aligned items to be on the same line.
+
+FLAG_NONE = 0x0000
+SMALL_FONT = 0x0001
+# BIG_FONT = 0x0002 -> Unused
+PAGE_BOTTOM = 0x0004
+MANY_FONTS = 0x0010
+IS_BULLET = 0x0020
+DEFAULT_FONT_SIZE = 0x0040
+TITLE_SMALLER_THAN_SUBTITLE = 0x0080
+
+
+TITLE_MAX_LINES = 2
+
+TITLE_MIN_CHAR = 2 # To avoid â€œstyledâ€ bullet : we consider that a font never
+                  # used for more than TITLE_MIN_CHAR characters per line
+                  # is a kind of text styling and will take the next line's font
+
+SIMILARITY_THRESHOLD = 1.0
+
+# Celle lÃ  est un peu compliquÃ©e : Pour dÃ©tecter la structure, on compte
+# le nombre de successions d'un changement de police de caractÃ¨res vers
+# un autre (ex : la fonte 3 succÃ¨de *2* fois Ã  la fonte 8).
+# Si ce nombre est trop peu Ã©levÃ© (<= NB_SUCCESSION_FOR_SAME) alors
+# on considÃ¨re que 8 n'est pas un titre de 3, et qu'ils sont au mÃªme niveau.
+# Sinon, on considÃ¨re que 8 est un niveau au-dessus dans la hiÃ©rarchie des
+# titres, sous-titres, â€¦
+NB_SUCCESSION_FOR_SAME = 0
+
+# Regex
+INDICES_EXPOSANTS_USUELS = [
+  'er|Ã¨re|ere', # 1er, 1Ã¨re, â€¦
+  'nde?', # 2nd
+  'i?[eÃ¨]me', # 3Ã¨me, 4ieme, â€¦
+  'Â°',
+]
+
+
+# +--------------------------------------------------------------+
+# |                       get_pdftotext                          |
+# +--------------------------------------------------------------+
+def get_pdftotext(filename):
+  # Calls pdftotext and retreive standard output in a string (o)
+  basename = os.path.splitext(filename)[0]
+  cmd = [CMD_PDFTOTEXT, '-bbox-layout', '-eol', 'unix', '%s.pdf' % basename, '-']
+  proc = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+  o, e = proc.communicate()
+  if (proc.returncode != 0):
+    print('-S-> Command pdftotext returned an error :')
+    print('     '  + e.decode('utf8'))
+    return []
+
+  # Parse xml code and create block table.
+  xml = o.decode('utf8')
+  root = ET.fromstring(xml)
+
+  page_num = 0
+  flow_num = 0
+  blocks = []
+  for body in root:
+    if (body.tag.endswith('body')):
+      for doc in body:
+        if (doc.tag.endswith('doc')):
+          for page in doc:
+            if (page.tag.endswith('page')):
+              page_num += 1
+              for fl in page:
+                if (fl.tag.endswith('flow')):
+                  flow_num += 1
+                  for bloc in fl:
+                    if (bloc.tag.endswith('block')):
+                      bl = {'page': page_num, 'flow': flow_num, 'lines': [],
+                            'flags': FLAG_NONE,
+                            'x_min': float(bloc.get('xMin')),
+                            'x_max': float(bloc.get('xMax')),
+                            'y_min': float(bloc.get('yMin')),
+                            'y_max': float(bloc.get('yMax')),
+                            }
+                      for line in bloc:
+                        if (line.tag.endswith('line')):
+                          h = float(line.get('yMax')) - float(line.get('yMin'))
+                          li = { 'text': '', 'height': h, 'words': [],
+                            'flags': FLAG_NONE,
+                            'x_min': float(bloc.get('xMin')),
+                            'x_max': float(bloc.get('xMax')),
+                            'y_min': float(bloc.get('yMin')),
+                            'y_max': float(bloc.get('yMax')),
+                          }
+                          last_nbcar = 0
+                          last_h = 0
+                          for word in line:
+                            if (word.tag.endswith('word')):
+                              hword = float(word.get('yMax')) - float(word.get('yMin'))
+                              li['words'].append({'height': hword, 'text': word.text})
+                              if ((hword != last_h) and (last_nbcar < 2)):
+                                  # This is to avoid separation of one big capital
+                                  # letter at the beginin of a title or paragraph.
+                                  last_h = hword
+                                  if len(re.sub(r'\W','', li['text'])) == 0:
+                                    li['text'] = "%s %s" % (li['text'], word.text)
+                                  else:
+                                    li['text'] = "%s%s" % (li['text'], word.text)
+                              else:
+                                  li['text'] = "%s %s" % (li['text'], word.text)
+                              li['text'] = li['text'].strip()
+                              last_nbcar = len(word.text)
+                          bl['lines'].append(li)
+                      blocks.append(bl)
+  return blocks
+
+
+# +--------------------------------------------------------------+
+# |                       get_pdftohtml                          |
+# +--------------------------------------------------------------+
+def get_pdftohtml(filename):
+  basename = os.path.splitext(filename)[0]
+  cmd = [CMD_PDFTOHTML, '-xml', '-i', '-stdout', '%s.pdf' % basename]
+  proc = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+  o, e = proc.communicate()
+  if (proc.returncode != 0):
+    print('-S-> Command pdftohtml returned an error :')
+    print('     '  + e.decode('utf8'))
+    return None
+
+  # Parse xml code and create block table.
+  xml = o.decode('utf8')
+  root = ET.fromstring(xml)
+
+  fontspec = []
+  segments = []
+  for page in root:
+    if (page.tag.endswith('page')):
+        pg = int(page.get('number'))
+        for tg in page:
+            if (tg.tag.endswith('fontspec')):
+                fontspec.append({
+                    'id': int(tg.get('id')),
+                    'size': int(tg.get('size')),
+                    'family': tg.get('family'),
+                    'color': tg.get('color'),
+                    'nb_cars': 0
+                })
+            elif (tg.tag.endswith('text')):
+                fnt = int(tg.get('font'))
+                top = int(tg.get('top'))
+                left = int(tg.get('left'))
+                width = int(tg.get('width'))
+                height = int(tg.get('height'))
+                while (tg.text is None) and (len(tg) > 0):
+                    tg = tg[0] # remove html style tags (like <b>, â€¦)
+                if (tg.text is not None):
+                    li = "%s" % (tg.text)
+                    if (len(li.strip()) > 0):
+                        segments.append({'page': pg, 'font': fnt,
+                            'top': top, 'left': left,
+                            'width': width, 'height': height,
+                            'text': li.strip()
+                        })
+                        # Find font in fontspec
+                        for font in fontspec:
+                            if font['id'] == fnt: break
+                        font['nb_cars'] += len(li.strip())
+  return { 'fonts': fontspec, 'segments': segments }
+
+
+# +--------------------------------------------------------------+
+# |                   get_default_font_size                      |
+# +--------------------------------------------------------------+
+def get_default_font_size(fontspec):
+  sizes = {}
+  max_cars = 0
+  size_max_cars = 42 # Doesn't matter : it'll change
+  for f in fontspec:
+      if sizes.get(f['size']) is None:
+          sizes[f['size']] = f['nb_cars']
+      else:
+          sizes[f['size']] += f['nb_cars']
+      if sizes[f['size']] > max_cars:
+          max_cars = sizes[f['size']]
+          size_max_cars = f['size']
+  return size_max_cars
+
+
+# +--------------------------------------------------------------+
+# |                      mark_small_fonts                        |
+# +--------------------------------------------------------------+
+# RQ : Also marks bullet lines
+def mark_small_fonts(blocks, default_font_size):
+    for b in blocks:
+        for l in b['lines']:
+            if (round(l['height']) < default_font_size):
+                l['flags'] |= SMALL_FONT
+            if len(re.sub(r'\W','', l['text'])) == 0:
+                l['flags'] |= IS_BULLET
+
+
+# +--------------------------------------------------------------+
+# |                      mark_page_bottom                        |
+# +--------------------------------------------------------------+
+def mark_page_bottom(blocks):
+    if (blocks[-1]['page'] == 1): return
+
+    # Find indexes of last blocks in pages
+    bndx = []
+    for i in range(0, len(blocks) - 1):
+        if (blocks[i]['page'] != blocks[i+1]['page']):
+            bndx.append(i)
+    bndx.append(len(blocks)-1)
+
+    # Get last line indexes
+    lndx = []
+    for i in bndx:
+        lndx.append(len(blocks[i]['lines'])-1)
+
+    # Loop while finding always same characters in last lines
+    end = False
+    while not end:
+        txt = None
+        # Test if last lines characters are the same
+        for i,j in zip(bndx, lndx):
+            li = re.sub(r'[^a-zA-Z]', '', blocks[i]['lines'][j]['text'])
+            if txt is None: txt = li
+            else: end = (txt != li)
+        # All last line are the same, so mark them
+        if not end:
+            for i in range(0, len(bndx)):
+                blocks[bndx[i]]['lines'][lndx[i]]['flags'] |= PAGE_BOTTOM
+                lndx[i] -= 1
+                if (lndx[i] < 0):
+                    #-# blocks[bndx[i]]['flags'] |= PAGE_BOTTOM
+                    bndx[i] -= 1
+                    lndx[i] = len(blocks[bndx[i]]['lines']) - 1
+                    end = bndx[i] < 0
+
+# +--------------------------------------------------------------+
+# |                         is_ind_exp                           |
+# +--------------------------------------------------------------+
+# Is it an indice or exposant ?
+def is_ind_exp(str):
+  for ie in INDICES_EXPOSANTS_USUELS:
+      if re.match(ie, str):
+          return True
+  return False
+
+# +--------------------------------------------------------------+
+# |                         get_lines                            |
+# +--------------------------------------------------------------+
+# Extract lines from 'text' attribute returned by get_pdftohtml and associates
+# a font id (and the page number), which is the font used by the higher number
+# of characters of the line.
+# Does a column splitting considering the value of LEFT_THRESHOLD
+def get_lines(segments, fontspec):
+    last_top = -1
+    line_no = -1
+    last_right = 0
+    for txt in segments:
+        if (txt['top'] == last_top) and ((txt['left'] - last_right) <= LEFT_THRESHOLD):
+            txt['line'] = line_no
+        elif is_ind_exp(txt['text'].strip()):
+            txt['line'] = line_no
+        else:
+            line_no += 1
+            txt['line'] = line_no
+            last_top = txt['top']
+        last_right = txt['left'] + txt['width']
+
+    for f in fontspec:
+        if 'same_line' not in f:
+            f['same_line'] = []
+
+    lines = []
+    last_line = -2
+    li = ''
+    fnt = {}
+    page_num = segments[0]['page']
+    for txt in segments:
+        if (txt['line'] != last_line) or (txt == segments[-1]):
+            if (len(li.strip()) > 0):
+                fnt_no = -1; max_car = 0;
+                for f in fnt.keys():
+                    if (fnt[f] > max_car):
+                        max_car = fnt[f]
+                        fnt_no = f
+                lines.append({ 'text': li.strip(),
+                    'most_used_font': fnt_no,
+                    'nb_fonts': len(fnt),
+                    'page': page_num})
+            li = txt['text'].strip()
+            last_line = txt['line']
+            for fi1 in fnt.keys():
+                for fi2 in fnt.keys():
+                    if fi1 != fi2:
+                        f1 = next(it for it in fontspec if it['id'] == int(fi1))
+                        f2 = next(it for it in fontspec if it['id'] == int(fi2))
+                        if (f2['id'] not in f1['same_line']):
+                            f1['same_line'].append(f2['id'])
+                            f2['same_line'].append(f1['id'])
+            fnt = {}
+            fnt[txt['font']] = len(li.strip())
+        else:
+            if (is_ind_exp(txt['text'])):
+                li = "%s%s" % (li, txt['text'].strip())
+            else:
+                li = "%s %s" % (li, txt['text'].strip())
+            if (fnt.get(txt['font']) is None):
+                fnt[txt['font']] = len(txt['text'].strip())
+            else:
+                fnt[txt['font']] += len(txt['text'].strip())
+        page_num = txt['page']
+    return lines
+
+# +--------------------------------------------------------------+
+# |                        guess_fonts                           |
+# +--------------------------------------------------------------+
+# Tries to guess fontspec of each line into blocks list.
+# It calculates the levenshtein distance with every segment of the same page
+# and assigns the best matching score's font.
+def guess_fonts(blocks, segments, fontspec):
+    lines = get_lines(segments, fontspec)
+    ndx_lines = [0,] # Indexation des indices de line par numÃ©ro de page
+    for ndx in range(1, len(lines)):
+        if (lines[ndx-1]['page'] != lines[ndx]['page']):
+            ndx_lines.append(ndx)
+    ndx_lines.append(len(lines))
+
+    for f in fontspec:
+        f['nb_lines'] = 0
+        f['dist_sum'] = 0
+        #f['block_pos_sum'] = 0
+
+    for bl in blocks:
+        for l in bl['lines']:
+            if (len(l['text']) > 0):
+                min_dist = len(l['text'])
+                min_score = 1.0
+                font_sel = -1
+                line_no = -1
+                for i in range(ndx_lines[bl['page']-1], ndx_lines[bl['page']]):
+                    if (len(lines[i]['text']) > 0):
+                        d = levenshtein(l['text'], lines[i]['text'])
+                        if (d == 0):
+                            min_dist = 0
+                            min_score = 0.0
+                            font_sel = lines[i]['most_used_font']
+                            line_no = i
+                            break;
+                        score = float(d) / float(max(len(l['text']), len(lines[i]['text'])))
+                        if (score <= SIMILARITY_THRESHOLD):
+                            if (d < min_dist):
+                                min_dist = d
+                                min_score = score
+                                font_sel = lines[i]['most_used_font']
+                                line_no = i
+                l['font'] = font_sel
+                if (font_sel >= 0):
+                  fnt = next(it for it in fontspec if it['id'] == font_sel)
+                  fnt['nb_lines'] +=1
+                  fnt['dist_sum'] += min_dist
+                l['score'] = min_score # For debuggin purpose
+                l['dist'] = min_dist   #    idem.
+                l['line_no'] = line_no # idem. Stores the "similar line" number
+                # print("> %s" % l['text'])
+                # print("  %s" % lines[line_no]['text'])
+                # print("  [%d]" % font_sel)
+                # print("")
+                if (lines[line_no]['nb_fonts'] > 1):
+                    l['flags'] |= MANY_FONTS
+
+# +--------------------------------------------------------------+
+# |                    replace_block_fonts                       |
+# +--------------------------------------------------------------+
+# Adds a 'short_font' attribute to lines which gives another font value which
+# doesn't care about style (bold, â€¦).
+# RK: def_size is default_font_size, used to mark SMALL_FONT flag.
+def replace_block_fonts(blocks, fontspec, def_size):
+    for i in range(0, len(fontspec) - 1):
+        for j in range(i+1, len(fontspec)):
+          if (fontspec[j].get('replaceWith') is None):
+            if (fontspec[j]['id'] in fontspec[i]['same_line']):
+                if fontspec[i].get('replaceWith') is None:
+                    fontspec[j]['replaceWith'] = fontspec[i]['id']
+                else:
+                    fontspec[j]['replaceWith'] = fontspec[i]['replaceWith']
+    for bl in blocks:
+        for l in bl['lines']:
+            if (l['font'] < 0):
+                f = None
+            else:
+                f = next(it for it in fontspec if it['id'] == l['font'])
+            if (f is None) or (f.get('replaceWith') is None):
+                l['short_font'] = l['font']
+            else:
+                l['short_font'] = f.get('replaceWith')
+            if (f is not None):
+                f = next(it for it in fontspec if it['id'] == l['short_font'])
+                if (f['size'] < def_size):
+                    l['flags'] |= SMALL_FONT
+                if (f['size'] == def_size):
+                    l['flags'] |= DEFAULT_FONT_SIZE
+
+
+# +--------------------------------------------------------------+
+# |                      guess_structure                         |
+# +--------------------------------------------------------------+
+def guess_structure(blocks, fontspec,
+  remove_flags = SMALL_FONT | PAGE_BOTTOM | IS_BULLET):
+    t = [] # A list used here and there
+    n = [] # Another one
+
+    # Search for the most used font
+    # Here, t will be used to count the number of cars of each font.
+    #   and n will be used to store the maximum line size for each font.
+    for i in range(len(fontspec)):
+        t.append(0)
+        n.append(0)
+    nb_max = -1
+    ndx_most_used = -1
+    for bl in blocks:
+        for l in bl['lines']:
+            if (l['short_font'] >= 0) and ((l['flags'] & remove_flags) == FLAG_NONE):
+                lon = len(l['text'].strip())
+                t[l['short_font']] += lon
+                if lon > n[l['short_font']]: n[l['short_font']] = lon
+                if (t[l['short_font']] > nb_max):
+                    nb_max = t[l['short_font']]
+                    ndx_most_used = l['short_font']
+    b = [nb <= TITLE_MIN_CHAR for nb in n]
+
+    ### ndx_most_used is the most used font number.
+    ### b[font_number] is True if the font seems used for bullets.
+
+    t = [] # We'll use it to list the fonts succession
+    n = [] # Used to count the number of lines
+    for bl in blocks:
+        for l in bl['lines']:
+            if (l['flags'] & remove_flags) == FLAG_NONE:
+                if t == []:
+                    t.append(l['short_font'])
+                    n.append(1)
+                else:
+                    if (t[-1] != l['short_font']):
+                        t.append(l['short_font'])
+                        n.append(1)
+                    else:
+                        n[-1] += 1
+
+    f = {} # Will contain used font numbers and number of occurences in t
+    for i,j in zip(t,n):
+        if i not in f.keys():
+            f[i] = {'nb': 1, 'nl':j, 'maxl': j,
+                    'is_bullet': b[i], 'flags': FLAG_NONE}
+        else:
+            f[i]['nb'] += 1
+            f[i]['nl'] += j
+            if (j > f[i]['maxl']):
+                f[i]['maxl'] = j
+
+    for i in f.keys():
+        f[i]['isnt_title'] = (f[i]['maxl'] > TITLE_MAX_LINES)
+
+    # Replace short_font for lines considered as bullets (or text styling).
+    last_bullet_lines = []
+    for bl in blocks:
+        for l in bl['lines']:
+            if (l['flags'] & remove_flags) == FLAG_NONE:
+                if f[l['short_font']]['is_bullet']:
+                    last_bullet_lines.append(l)
+                else:
+                    if (len(last_bullet_lines) > 0):
+                        for last in last_bullet_lines:
+                            last['short_font'] = l['short_font']
+                        last_bullet_lines = []
+    if (len(last_bullet_lines) > 0):
+        for last in last_bullet_lines:
+            last['short_font'] = ndx_most_used
+
+    # n and b won't be used anymore I think. So they're free
+
+    # Rebuild the font succession list (is not optimized but is the safest)
+    t = []
+    for bl in blocks:
+        for l in bl['lines']:
+            if (l['flags'] & remove_flags) == FLAG_NONE:
+                if t == []: t.append(l['short_font'])
+                else:
+                    if (t[-1] != l['short_font']):
+                        t.append(l['short_font'])
+
+    b = [] # We'll do a 2d table with b[i][j] = number of transitions
+           # from fonti to fontj (will be a tree of font transitions)
+    for i in range(len(fontspec)+1): # Consider len+1 to have font number -1
+        b.append([0 for j in range(len(fontspec)+1)])
+    for i in range(len(t)-1):
+        j = i+1
+        if not f[t[i]]['isnt_title']:
+            b[t[i]][t[j]] += 1
+
+    # Should we do this : ? &&&&&&&&&&&&&&&&&&&& A tester
+    # Un moyen de s'assurer que tout sera parcouru...
+    # Signifie qu'on ne finit pas sur un titre.
+    f[t[-1]]['isnt_title'] = True
+
+    # Create a deep attribute in f which contains distance from leaves
+    for k,v in f.items():
+        if v['isnt_title']:
+            v['deep'] = 0
+            v['nb_transitions'] = 999999999
+        else: v['deep'] = None
+
+    # Algo : dans le tableau b, on parcourt les colonnes (j) pour les fontes qui ont un deep.
+    #        Un indice (i) de ligne pour lequel la valeur b[i][j] est non nulle signifie
+    #        que la fonte i
+    #        prÃ©cÃ¨de la fonte j b[i][j] fois.
+    # Rq : Une colonne vide pour un indice dont la ligne est non-vide est une racine
+    #      Une ligne vide pour un indice dont la colonne est non-vide est une feuille
+    # On rÃ©pÃ¨te tant qu'on change des valeurs (c'est pas optimisÃ© mais crotte,
+    # le tableau n'est pas si grand)
+    has_changed = True
+    deep_max = 0
+    while has_changed:
+        has_changed = False
+        for k,v in f.items():
+            if v['deep'] is not None:
+                for i in range(-1,len(b)-1):
+                    if b[i][k] != 0:
+                        if f[i]['deep'] is None:
+                            if (b[i][k] <= NB_SUCCESSION_FOR_SAME):
+                                f[i]['deep'] = v['deep']
+                                f[i]['nb_transitions'] = b[i][k]
+                            else:
+                                f[i]['deep'] = v['deep'] + 1
+                                f[i]['nb_transitions'] = b[i][k]
+                            if f[i]['deep'] > deep_max:
+                                deep_max = f[i]['deep']
+                            has_changed = True
+                            if (fontspec[i]['size'] < fontspec[k]['size']):
+                                f[i]['flags'] |= TITLE_SMALLER_THAN_SUBTITLE
+                        elif f[i]['nb_transitions'] < b[i][k]:
+                            f[i]['deep'] = v['deep'] + 1
+                            f[i]['nb_transitions'] = b[i][k]
+                            has_changed = True
+                            if (fontspec[i]['size'] < fontspec[k]['size']):
+                                f[i]['flags'] |= TITLE_SMALLER_THAN_SUBTITLE
+
+    # Reverse deepness value, to make it distance from root
+    for v in f.values():
+        if (v['deep'] is not None):
+            v['deep'] = deep_max - v['deep']
+
+    # Add deep in blocks lines
+    for bl in blocks:
+        for l in bl['lines']:
+            if (l['flags'] & remove_flags) == FLAG_NONE:
+                l['deep'] = f[l['short_font']]['deep']
+                if ((f[l['short_font']]['flags']) & TITLE_SMALLER_THAN_SUBTITLE != 0):
+                   l['flags'] |= TITLE_SMALLER_THAN_SUBTITLE
+            else:
+                l['deep'] = deep_max
+
+
+
+
+
+
+
+# +--------------------------------------------------------------+
+# |                      print_block_list                        |
+# +--------------------------------------------------------------+
+def print_block_list(t, remove_flags = FLAG_NONE):
+    last_page = -1
+    deep_max = -1
+    for bl in t:
+        for l in bl['lines']:
+            if (l.get('deep') is not None):
+                if deep_max < l['deep']: deep_max = l['deep']
+    if deep_max > 10: deep_max = 10
+    ttl = "#############"
+    last_deep = -1
+
+    for block in t:
+        if (block['page'] != last_page):
+            if (last_page > 0):
+                print("")
+            last_page = block['page']
+            print("________________________________")
+            print("*page %d*" % last_page)
+
+        print("")
+
+        for l in block['lines']:
+            if (l['flags'] & remove_flags) == FLAG_NONE:
+                pre = ''
+                post = '  '
+                if (l.get('deep') is None):
+                    pre = '!! '
+                    last_deep = -1
+                else:
+                    if (l['flags'] & SMALL_FONT) != 0:
+                        pre = "> %s" % pre
+                    #if (len(l['text']) > 20) and \
+                    #   len(re.sub(r'\w','', l['text']).strip()) > 5:
+                    #    post = "%s  " % post
+                    if (l['flags'] & TITLE_SMALLER_THAN_SUBTITLE) != 0 and \
+                       (l['flags'] & (DEFAULT_FONT_SIZE | SMALL_FONT)) != 0:
+                        pre = "%s**" % (pre)
+                        post = "**%s" % post
+                    elif l['deep'] < deep_max:
+                        pre = "%s%s " % (pre, ttl[0:(l['deep']+1)])
+                    last_deep = l['deep']
+                print("%s%s%s" % (pre, l['text'], post))
+
+
+# +--------------------------------------------------------------+
+# |                           main                               |
+# +--------------------------------------------------------------+
+if (len(sys.argv) < 1):
+    print("-U-> Usage : python pdf2blocks.py <fichier_pdf>")
+    sys.exit(-1)
+
+blocks = get_pdftotext(sys.argv[1])
+p2h = get_pdftohtml(sys.argv[1])
+fontspec = p2h['fonts']
+segments = p2h['segments']
+
+default_font_size = get_default_font_size(fontspec)
+# mark_small_fonts(blocks, default_font_size)
+mark_page_bottom(blocks)
+guess_fonts(blocks, segments, fontspec)
+replace_block_fonts(blocks, fontspec, default_font_size)
+guess_structure(blocks, fontspec)
+print_block_list(blocks, PAGE_BOTTOM | IS_BULLET)