Commit 9026c0ff authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update README.md

parent b7646096
...@@ -282,19 +282,12 @@ et seront ignorées dans la suite de l'algorithme. ...@@ -282,19 +282,12 @@ et seront ignorées dans la suite de l'algorithme.
Il s'agit d'attribuer l'*id* d'une fonte de **fontspec** à chaque ligne Il s'agit d'attribuer l'*id* d'une fonte de **fontspec** à chaque ligne
de la liste **blocks**. de la liste **blocks**.
%% Par simplification de langage, on parlera de la liste **lines** pour désigner
la concaténation des sous-listes *lines* de la liste **blocks**. Parcourir
la liste **lines** consiste à considérer dans l'ordre les lignes renvoyées
par la commande *pdftotext*. De même, parcourir la liste de **segments**
consiste à considérer les lignes de texte renvoyées par la commande *pdftohtml*.
L'algorithme consiste, pour chaque ligne de bloc (élément de la liste **lines**), L'algorithme consiste, pour chaque ligne de bloc (élément de la liste **lines**),
à calculer sa à calculer sa
[distance de Levenshtein](https://en.wikipedia.org/wiki/Levenshtein_distance) [distance de Levenshtein](https://en.wikipedia.org/wiki/Levenshtein_distance)
avec chaque segment de texte (élément de la liste **segments**). avec chaque segment de texte (élément de la liste **segments**).
Le segment ayant le meilleur score (donc la distance la plus faible) est On attribue alors à la ligne la fonte du segment ayant le meilleur score
est associé à la ligne. On attribue alors à cette (c'est à dire la distance la plus faible).
ligne la fonte du segment ayant le meilleur score.
Ce calcul de distance est nécessaire du fait de la segmentation des lignes Ce calcul de distance est nécessaire du fait de la segmentation des lignes
renvoyées par *pdftohtml*, qui ne correspondent pas exactement aux lignes renvoyées par *pdftohtml*, qui ne correspondent pas exactement aux lignes
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment