Commit b7646096 authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent 1823a557
......@@ -282,18 +282,19 @@ et seront ignorées dans la suite de l'algorithme.
Il s'agit d'attribuer l'*id* d'une fonte de **fontspec** à chaque ligne
de la liste **blocks**.
Par simplification de langage, on parlera de la liste **lines** pour désigner
%% Par simplification de langage, on parlera de la liste **lines** pour désigner
la concaténation des sous-listes *lines* de la liste **blocks**. Parcourir
la liste **lines** consiste à considérer dans l'ordre les lignes renvoyées
par la commande *pdftotext*. De même, parcourir la liste de **segments**
consiste à considérer les lignes de texte renvoyées par la commande *pdftohtml*.
L'algorithme consiste, pour chaque ligne de **lines**, à calculer sa
L'algorithme consiste, pour chaque ligne de bloc (élément de la liste **lines**),
à calculer sa
[distance de Levenshtein](https://en.wikipedia.org/wiki/Levenshtein_distance)
avec chaque ligne de la même page dans la liste **segments**.
Le segment donnant le meilleur score (donc la distance la plus faible) est
considéré comme étant celui qui correspond à la ligne. On attribue alors à cette
ligne la fonte du segment correspondant.
avec chaque segment de texte (élément de la liste **segments**).
Le segment ayant le meilleur score (donc la distance la plus faible) est
est associé à la ligne. On attribue alors à cette
ligne la fonte du segment ayant le meilleur score.
Ce calcul de distance est nécessaire du fait de la segmentation des lignes
renvoyées par *pdftohtml*, qui ne correspondent pas exactement aux lignes
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment