Commit 9026c0ff authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent b7646096
......@@ -282,19 +282,12 @@ et seront ignorées dans la suite de l'algorithme.
Il s'agit d'attribuer l'*id* d'une fonte de **fontspec** à chaque ligne
de la liste **blocks**.
%% Par simplification de langage, on parlera de la liste **lines** pour désigner
la concaténation des sous-listes *lines* de la liste **blocks**. Parcourir
la liste **lines** consiste à considérer dans l'ordre les lignes renvoyées
par la commande *pdftotext*. De même, parcourir la liste de **segments**
consiste à considérer les lignes de texte renvoyées par la commande *pdftohtml*.
L'algorithme consiste, pour chaque ligne de bloc (élément de la liste **lines**),
à calculer sa
[distance de Levenshtein](https://en.wikipedia.org/wiki/Levenshtein_distance)
avec chaque segment de texte (élément de la liste **segments**).
Le segment ayant le meilleur score (donc la distance la plus faible) est
est associé à la ligne. On attribue alors à cette
ligne la fonte du segment ayant le meilleur score.
On attribue alors à la ligne la fonte du segment ayant le meilleur score
(c'est à dire la distance la plus faible).
Ce calcul de distance est nécessaire du fait de la segmentation des lignes
renvoyées par *pdftohtml*, qui ne correspondent pas exactement aux lignes
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment