Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
copain
PDF2Blocs
Commits
9026c0ff
Commit
9026c0ff
authored
Apr 10, 2020
by
Roussey Catherine
Browse files
Update README.md
parent
b7646096
Changes
1
Hide whitespace changes
Inline
Side-by-side
src/py/README.md
View file @
9026c0ff
...
@@ -282,19 +282,12 @@ et seront ignorées dans la suite de l'algorithme.
...
@@ -282,19 +282,12 @@ et seront ignorées dans la suite de l'algorithme.
Il s'agit d'attribuer l'
*id*
d'une fonte de
**fontspec**
à chaque ligne
Il s'agit d'attribuer l'
*id*
d'une fonte de
**fontspec**
à chaque ligne
de la liste
**blocks**
.
de la liste
**blocks**
.
%% Par simplification de langage, on parlera de la liste
**lines**
pour désigner
la concaténation des sous-listes
*lines*
de la liste
**blocks**
. Parcourir
la liste
**lines**
consiste à considérer dans l'ordre les lignes renvoyées
par la commande
*pdftotext*
. De même, parcourir la liste de
**segments**
consiste à considérer les lignes de texte renvoyées par la commande
*pdftohtml*
.
L'algorithme consiste, pour chaque ligne de bloc (élément de la liste
**lines**
),
L'algorithme consiste, pour chaque ligne de bloc (élément de la liste
**lines**
),
à calculer sa
à calculer sa
[
distance de Levenshtein
](
https://en.wikipedia.org/wiki/Levenshtein_distance
)
[
distance de Levenshtein
](
https://en.wikipedia.org/wiki/Levenshtein_distance
)
avec chaque segment de texte (élément de la liste
**segments**
).
avec chaque segment de texte (élément de la liste
**segments**
).
Le segment ayant le meilleur score (donc la distance la plus faible) est
On attribue alors à la ligne la fonte du segment ayant le meilleur score
est associé à la ligne. On attribue alors à cette
(c'est à dire la distance la plus faible).
ligne la fonte du segment ayant le meilleur score.
Ce calcul de distance est nécessaire du fait de la segmentation des lignes
Ce calcul de distance est nécessaire du fait de la segmentation des lignes
renvoyées par
*pdftohtml*
, qui ne correspondent pas exactement aux lignes
renvoyées par
*pdftohtml*
, qui ne correspondent pas exactement aux lignes
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment