Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
copain
PDF2Blocs
Commits
9026c0ff
Commit
9026c0ff
authored
Apr 10, 2020
by
Roussey Catherine
Browse files
Update README.md
parent
b7646096
Changes
1
Show whitespace changes
Inline
Side-by-side
src/py/README.md
View file @
9026c0ff
...
...
@@ -282,19 +282,12 @@ et seront ignorées dans la suite de l'algorithme.
Il s'agit d'attribuer l'
*id*
d'une fonte de
**fontspec**
à chaque ligne
de la liste
**blocks**
.
%% Par simplification de langage, on parlera de la liste
**lines**
pour désigner
la concaténation des sous-listes
*lines*
de la liste
**blocks**
. Parcourir
la liste
**lines**
consiste à considérer dans l'ordre les lignes renvoyées
par la commande
*pdftotext*
. De même, parcourir la liste de
**segments**
consiste à considérer les lignes de texte renvoyées par la commande
*pdftohtml*
.
L'algorithme consiste, pour chaque ligne de bloc (élément de la liste
**lines**
),
à calculer sa
[
distance de Levenshtein
](
https://en.wikipedia.org/wiki/Levenshtein_distance
)
avec chaque segment de texte (élément de la liste
**segments**
).
Le segment ayant le meilleur score (donc la distance la plus faible) est
est associé à la ligne. On attribue alors à cette
ligne la fonte du segment ayant le meilleur score.
On attribue alors à la ligne la fonte du segment ayant le meilleur score
(c'est à dire la distance la plus faible).
Ce calcul de distance est nécessaire du fait de la segmentation des lignes
renvoyées par
*pdftohtml*
, qui ne correspondent pas exactement aux lignes
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment