Commit 4c1e5fb0 authored by Roussey Catherine's avatar Roussey Catherine
Browse files
parents 643da1cd 2b381799
......@@ -2,19 +2,18 @@
L'objectif du logiciel est de regrouper les segments de texte en lignes, puis en blocs.
Ensuite chaque bloc est labellisé par une catégorie:
* paragraphe: un bloc de texte courant,
* title: le titre du document,
* title i: le titre de niveau i,
* caption: une légende d'image,
* bottom page: un texte qui se répéte en bas de toutes les pages, par exemple le numéro de page,
* top page: un texte qui se répète en haut de toutes les pages, par exemple le numéro de page,
* misc: un texte de petite taille qui n'appartient pas à une catégorie, par exemple les notes de bas de pages.
* paragraphe: un bloc de texte courant --> balise html p,
* title: le titre du document --> balise html h1,
* title i: le titre de niveau i --> balise html h2,
* caption: une légende d'image --> balise html figure et figcaption,
* bottom page: un texte qui se répéte en bas de toutes les pages, par exemple le numéro de page --> balise footer,
* top page: un texte qui se répète en haut de toutes les pages, par exemple le numéro de page --> balise header,
* misc: un texte de petite taille qui n'appartient pas à une catégorie, par exemple les notes de bas de pages --> balise p small.
Plusieurs types d'erreurs ont été identifiées:
* ER_Reg: mauvais regroupement de segments: des segments de texte n'ont pas été correctement regroupés dans un meme bloc.
* ER_Ord: mauvais ordonancement de blocs: deux blocs qui devaient etre consecutifs sont séparés par un autre bloc.
* ER_Cat: mauvaise catégorisation de bloc: la catégorie du bloc identifié par le programme n'est pas la bonne.
* WA_Inv : un texte invisible pour l'humain apparait dans l'extraction du texte, ce n'est pas une erreur.
un tableau nous permet de lister les erreurs
https://docs.google.com/spreadsheets/d/1azBvHRj0aad6NbF3qvsKbY-aModLqNwztfE3J5dkvMQ/edit#gid=0
Pour évaluer les sorties du programme, un évaluateur humain compte le nombre de blocs ayant générés une erreur.
Un bloc ne peut etre associé qu'à une seule erreur.
......@@ -26,27 +25,21 @@ Un bloc ne peut etre associé qu'à une seule erreur.
## Viticulture
### Lorraine
| id du bsv | ER_Reg | ER_Ord | ER_Cat | WA_INV |
| --------- | ------ | ------ |------- | ------ |
| 20190619_LOR_BSV_Viticulture_cle8c2fdf | 24 | 0 | 9 | 1 |
#### Bulletins
- 20190619_LOR_BSV_Viticulture_cle8c2fdf [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190619_LOR_BSV_Viticulture_cle8c2fdf.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190619_LOR_BSV_Viticulture_cle8c2fdf.html)]
- **A**) Les éléments de la rubrique "À retenir cette semaine"
de la première page sont reconnus comme titres (de niveau 4). 7 blocs en ER_Cat
de la première page sont reconnus comme titres (de niveau 4).
- **B**) Un titre de niveau 1, "Fruit", s'insère entre les titres de niveau
2 et le sous-titre suivant. Le texte est en effet présent, on le voit
en sélectionnant la zone. 1 bloc WA_Inv
- **C**) une mauvaise détection de colonne (titres courts, texte
raccourci par une photo, …) coupe un tableau en deux (p.2). 1 bloc en ER_Reg
en sélectionnant la zone.
- **C**) une mauvaise détection de colonne (titres courts, texte
raccourci par une photo, …) coupe un tableau en deux (p.2).
- **D**) La dernière page (l'ours), du fait de taille de police importantes
et de justifiations larges donne une mauvaise structure de
titres / sous-titres. 23 Blocs en ER_reg + 2 blocs en ER_Cat.
titres / sous-titres.
- en conclusion pdf2blocs produit 59 erreurs et ABBYY produit 23 erreurs.
- 20190710_LOR_BSV_Viticulture_cle8bd128 [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190710_LOR_BSV_Viticulture_cle8bd128.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190710_LOR_BSV_Viticulture_cle8bd128.html)]
- On retrouve les erreurs **A**, **B** et **D**.
- **E**) Un léger changement de couleur de la fonte par défaut perturbe
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment