Commit 9c2f86e2 authored by Roussey Catherine's avatar Roussey Catherine
Browse files

Update ResultatsDesTests.md

parent 656420bf
......@@ -11,13 +11,9 @@ Ensuite chaque bloc est labellisé par une catégorie:
* misc: un texte de petite taille qui n'appartient pas à une catégorie, par exemple les notes de bas de pages --> balise p small.
Plusieurs types d'erreurs ont été identifiées:
* ER_Reg: mauvais regroupement de segments: des segments de texte n'ont pas été correctement regroupés dans un meme bloc.
* ER_Reg_Tab: le contenu d'une cellule du tableau se retrouve en dehors du tableau
* ER_Ord: mauvais ordonancement de blocs: deux blocs qui devaient etre consecutifs sont séparés par un autre bloc.
* ER_Cat: mauvaise catégorisation de bloc: la catégorie du bloc identifié par le programme n'est pas la bonne.
* ER_Cat_H: un titre n'a pas été reconnu
* ER_Cat_P: un paragraphe n'a pas été reconnu
* WA_Inv : un texte invisible pour l'humain apparait dans l'extraction du texte, ce n'est pas une erreur.
un tableau nous permet de lister les erreurs
https://docs.google.com/spreadsheets/d/1azBvHRj0aad6NbF3qvsKbY-aModLqNwztfE3J5dkvMQ/edit#gid=0
Pour évaluer les sorties du programme, un évaluateur humain compte le nombre de blocs ayant générés une erreur.
Un bloc ne peut etre associé qu'à une seule erreur.
......@@ -29,27 +25,21 @@ Un bloc ne peut etre associé qu'à une seule erreur.
## Viticulture
### Lorraine
| id du bsv | ER_Reg | ER_Ord | ER_Cat | WA_INV |
| --------- | ------ | ------ |------- | ------ |
| 20190619_LOR_BSV_Viticulture_cle8c2fdf | 24 | 0 | 9 | 1 |
#### Bulletins
- 20190619_LOR_BSV_Viticulture_cle8c2fdf [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190619_LOR_BSV_Viticulture_cle8c2fdf.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190619_LOR_BSV_Viticulture_cle8c2fdf.html)]
- **A**) Les éléments de la rubrique "À retenir cette semaine"
de la première page sont reconnus comme titres (de niveau 4). 7 blocs en ER_Cat
de la première page sont reconnus comme titres (de niveau 4).
- **B**) Un titre de niveau 1, "Fruit", s'insère entre les titres de niveau
2 et le sous-titre suivant. Le texte est en effet présent, on le voit
en sélectionnant la zone. 1 bloc WA_Inv
- **C**) une mauvaise détection de colonne (titres courts, texte
raccourci par une photo, …) coupe un tableau en deux (p.2). 1 bloc en ER_Reg
en sélectionnant la zone.
- **C**) une mauvaise détection de colonne (titres courts, texte
raccourci par une photo, …) coupe un tableau en deux (p.2).
- **D**) La dernière page (l'ours), du fait de taille de police importantes
et de justifiations larges donne une mauvaise structure de
titres / sous-titres. 23 Blocs en ER_reg + 2 blocs en ER_Cat.
titres / sous-titres.
- en conclusion pdf2blocs produit 59 errerss et ABBYY produit
- 20190710_LOR_BSV_Viticulture_cle8bd128 [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190710_LOR_BSV_Viticulture_cle8bd128.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190710_LOR_BSV_Viticulture_cle8bd128.html)]
- On retrouve les erreurs **A**, **B** et **D**.
- **E**) Un léger changement de couleur de la fonte par défaut perturbe
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment