Commit 16b3875f authored by Bernard Stephan's avatar Bernard Stephan
Browse files

Merge branch 'master' of gitlab-ssh.irstea.fr:copain/pdf2blocs

parents 9a4a368d bab8c14a
......@@ -2,20 +2,20 @@
L'objectif du logiciel est de regrouper les segments de texte en lignes, puis en blocs.
Ensuite chaque bloc est labellisé par une catégorie:
* paragraphe: un bloc de texte courant,
* title: le titre du document,
* title i: le titre de niveau i,
* caption: une légende d'image,
* bottom page: un texte qui se répéte en bas de toutes les pages, par exemple le numéro de page,
* top page: un texte qui se répète en haut de toutes les pages, par exemple le numéro de page,
* misc: un texte de petite taille qui n'appartient pas à une catégorie, par exemple les notes de bas de pages.
* paragraphe: un bloc de texte courant --> balise html p,
* title: le titre du document --> balise html h1,
* title i: le titre de niveau i --> balise html h2,
* caption: une légende d'image --> balise html figure et figcaption,
* caption: une légende de tableau --> balise html table et caption
* bottom page: un texte qui se répéte en bas de toutes les pages, par exemple le numéro de page --> balise html footer,
* top page: un texte qui se répète en haut de toutes les pages, par exemple le numéro de page --> balise html header,
* misc: un texte de petite taille qui n'appartient pas à une catégorie, par exemple les notes de bas de pages --> balise html p et small.
Plusieurs types d'erreurs ont été identifiées:
* ER_Reg: mauvais regroupement de segments: des segments de texte n'ont pas été correctement regroupés dans un meme bloc.
* ER_Ord: mauvais ordonancement de blocs: deux blocs qui devaient etre consecutifs sont séparés par un autre bloc.
* ER_Cat: mauvaise catégorisation de bloc: la catégorie du bloc identifié par le programme n'est pas la bonne.
* WA_Inv : un texte invisible pour l'humain apparait dans l'extraction du texte, ce n'est pas une erreur.
un tableau nous permet de lister les erreurs
https://docs.google.com/spreadsheets/d/1azBvHRj0aad6NbF3qvsKbY-aModLqNwztfE3J5dkvMQ/edit#gid=0
l'ensemble des fichiers se trouvent dans le repertoire google drive du projet D2KAB de la tache 4.3
Pour évaluer les sorties du programme, un évaluateur humain compte le nombre de blocs ayant générés une erreur.
Un bloc ne peut etre associé qu'à une seule erreur.
......@@ -26,27 +26,21 @@ Un bloc ne peut etre associé qu'à une seule erreur.
## Viticulture
### Lorraine
| id du bsv | ER_Reg | ER_Ord | ER_Cat | WA_INV |
| --------- | ------ | ------ |------- | ------ |
| 20190619_LOR_BSV_Viticulture_cle8c2fdf | 24 | 0 | 9 | 1 |
#### Bulletins
- 20190619_LOR_BSV_Viticulture_cle8c2fdf [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190619_LOR_BSV_Viticulture_cle8c2fdf.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190619_LOR_BSV_Viticulture_cle8c2fdf.html)]
- **A**) Les éléments de la rubrique "À retenir cette semaine"
de la première page sont reconnus comme titres (de niveau 4). 7 blocs en ER_Cat
de la première page sont reconnus comme titres (de niveau 4).
- **B**) Un titre de niveau 1, "Fruit", s'insère entre les titres de niveau
2 et le sous-titre suivant. Le texte est en effet présent, on le voit
en sélectionnant la zone. 1 bloc WA_Inv
- **C**) une mauvaise détection de colonne (titres courts, texte
raccourci par une photo, …) coupe un tableau en deux (p.2). 1 bloc en ER_Reg
en sélectionnant la zone.
- **C**) une mauvaise détection de colonne (titres courts, texte
raccourci par une photo, …) coupe un tableau en deux (p.2).
- **D**) La dernière page (l'ours), du fait de taille de police importantes
et de justifiations larges donne une mauvaise structure de
titres / sous-titres. 23 Blocs en ER_reg + 2 blocs en ER_Cat.
titres / sous-titres.
- en conclusion pdf2blocs produit 64 erreurs et ABBYY produit 23 erreurs.
- 20190710_LOR_BSV_Viticulture_cle8bd128 [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190710_LOR_BSV_Viticulture_cle8bd128.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/20190710_LOR_BSV_Viticulture_cle8bd128.html)]
- On retrouve les erreurs **A**, **B** et **D**.
- **E**) Un léger changement de couleur de la fonte par défaut perturbe
......@@ -249,6 +243,7 @@ Comment traiter le texte tourné à 90° ?
- À la fin, l'ours est de la même police que les légendes de photos.
- **Malgré toutes ces remarques**, la reconnaissance de structure logique
est plutôt satisfaisante.
- pdf2blocs a generé 40 erreurs et ABBYY a generé 46 erreurs
- BSV_NA_VIGNE_CHARENTES_07_20190514_cle841735 [[pdf](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/BSV_NA_VIGNE_CHARENTES_07_20190514_cle841735.pdf)] [[html](http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/BSV_NA_VIGNE_CHARENTES_07_20190514_cle841735.html)]
- Certaines structures ne sont pas reconnues de façon identique dans
ce bulletin et le précédent, alors que ceux-ci sont construits de la même
......
<!DOCTYPE html>
<html lang="fr">
<head><meta charset="utf-8">
<link rel="stylesheet" href="http://ontology.inrae.fr/bsv/html/bsv.css <view-source:http://ontology.inrae.fr/bsv/html/bsv.css>" />
<link rel="stylesheet" href="bsv.css <view-source:http://ontology.inrae.fr/bsv/html/Corpus/2019/Viticulture/bsv.css>" />
<!-- Fonts :
*[ 0] { size: 16, nb_blocks: 14, nb_cars:1139, color:#000000, family:ABCDEE+Calibri }
[ 1] { size: 12, nb_blocks: 14, nb_cars:338, color:#000000, family:ABCDEE+Verdana }
[ 2] { size: 21, nb_blocks: 1, nb_cars:23, color:#000000, family:ABCDEE+Calibri,Bold }
[ 3] { size: 18, nb_blocks: 2, nb_cars:99, color:#000000, family:ABCDEE+Calibri,Bold }
[ 4] { size: 18, nb_blocks: 6, nb_cars:468, color:#000000, family:ABCDEE+Calibri }
[ 6] { size: 23, nb_blocks: 5, nb_cars:25, color:#ffffff, family:ABCDEE+Calibri,Bold }
[ 7] { size: 21, nb_blocks: 6, nb_cars:50, color:#ffffff, family:ABCDEE+Calibri,Bold }
[ 8] { size: 16, nb_blocks: 7, nb_cars:131, color:#92d050, family:ABCDEE+Calibri,Bold }
[ 9] { size: 18, nb_blocks: 1, nb_cars:2, color:#000000, family:ABCDEE+Symbol }
[ 11] { size: 16, nb_blocks: 3, nb_cars:793, color:#000000, family:ABCDEE+Calibri,Bold }
[ 12] { size: 16, nb_blocks: 5, nb_cars:571, color:#b366b3, family:ABCDEE+Calibri,BoldItalic }
[ 15] { size: 16, nb_blocks: 1, nb_cars:111, color:#b366b3, family:ABCDEE+Calibri,Bold }
[ 16] { size: 14, nb_blocks: 4, nb_cars:52, color:#ffffff, family:ABCDEE+Calibri,Bold }
[ 17] { size: 14, nb_blocks: 41, nb_cars:152, color:#000000, family:ABCDEE+Calibri }
[ 19] { size: 16, nb_blocks: 3, nb_cars:221, color:#0c0c0c, family:ABCDEE+Calibri }
[ 23] { size: 16, nb_blocks: 4, nb_cars:201, color:#0000ff, family:ABCDEE+Calibri }
[ 27] { size: 16, nb_blocks: 8, nb_cars:123, color:#000000, family:ABCDEE+Verdana }
[ 28] { size: 21, nb_blocks: 5, nb_cars:6, color:#000000, family:ABCDEE+Verdana }
[ 29] { size: 13, nb_blocks: 8, nb_cars:655, color:#000000, family:ABCDEE+Verdana }
[ 31] { size: 13, nb_blocks: 4, nb_cars:247, color:#000000, family:ABCDEE+Verdana,Bold }
[ 33] { size: 14, nb_blocks: 1, nb_cars:140, color:#0000ff, family:ABCDEE+Calibri }
[ 34] { size: 21, nb_blocks: 5, nb_cars:137, color:#000000, family:ABCDEE+Calibri }
-->
</head>
<body>
<h1> BSV n° 09 - 19 Juin 2019 </h1>
<h2> A RETENIR CETTE SEMAINE</h2>
<p> Bilan météo ___________________________________________________________________p 2</p>
<p> Phénologie : H 17 « boutons séparés » à I 20 « début floraison » ________________________p 2</p>
<p> Mildiou : pas de contamination sur le réseau ________________________________________p 2</p>
<p> Oïdium : un signalement sur feuille hors réseau _____________________________________p 3</p>
<p> Tordeuses : fin du vol de 1ère génération -pas de glomérule ____________________________p 3</p>
<p> Annexes : note nationale abeilles _________________________________________________p 4 </p>
<p> PROCHAIN BSV : 26 juin 2019 </p>
<footer> 1 </footer>
<footer> BSV n° 09</footer>
<hr /><!-- ------------ Page 2 ------------ -->
<h2> BILAN MÉTÉO</h2>
<h3> FRUIT</h3>
<h4> Données du 10/06 au 17/06</h4>
<p> Température moyenne 16,2 °C
Tableau pluviométrie (mm)</p>
<table>
<tr><td> Date</td><td>Lucey</td><td>Corny-sur-Moselle</td><td>Ochey</td><td>Hattonville</td><td>Remich</td></tr>
<tr><td>10/06</td><td>14,5</td><td>17,6</td><td>5,6</td><td>1,8</td><td>15,6</td></tr>
<tr><td>11/06</td><td>13</td><td>9,6</td><td>19,1</td><td>13,8</td><td>-</td></tr>
<tr><td>12/06</td><td>1</td><td>3,6</td><td>1,2</td><td>1,4</td><td>3,8</td></tr>
<tr><td>13/06</td><td>0</td><td>0</td><td>0</td><td>0,4</td><td>6,2</td></tr>
<tr><td>14/06</td><td>7</td><td>8</td><td>8,7</td><td>9,4</td><td>5,6</td></tr>
<tr><td>Cumul semaine</td><td>35,5</td><td>38,8</td><td>34,6</td><td>26,8</td><td>31,2</td></tr>
<tr><td>Cumul au 01/01</td><td>225</td><td>396,8</td><td>290</td><td>-</td><td>328</td></tr>
<caption> Source http://www.meteociel.fr</caption>
</table>
<h2> PHENOLOGIE</h2>
<h3> FRUIT</h2>
<p> La floraison débute sur le vignoble lorrain. Les stades varient entre H
17 « boutons floraux séparés » et I 20 « début floraison ». En 2018,
la floraison avait démarré au 4 juin.</p>
<figure>
<figcaption>
Stade I20« début floraison »<br />
(Claire HARTARD -FREDON LORRAINE)<br />
</figcaptionv>
</figure>
<h2> MILDIOU</h2>
<p>Tous les éléments de biologie, de lutte alternative et de suivi du mildiou disponibles en cliquant sur ce lien</p>
<h4>Situation actuelle</h4>
<p> Le vignoble reste sain. Des averses significatives ont été enregistrées entre lundi 10 et vendredi 14 juin. Le risque
de contamination est à prendre en compte si la pluviométrie est supérieure à 2 mm. Avec les températures
moyennes, les cycles d’incubation durent environ 7 jours. Des taches pourraient sortir entre le 17 et le 21 juin.</p>
<h4> Analyse de risque</h4>
<p> Le risque mildiou est important jeudi et samedi car des pluies sont annoncées. Surveillez les cumuls de
pluviométrie sur vos parcelles et vérifiez l’état sanitaire de vos parcelles .</p>
<p> Si vous observez des taches de mildiou, merci de nous en informer et de nous envoyer si possible une photo.</p>
<footer> 2</footer>
<footer>BSV n° 09</footer>
<hr /><!-- ------------ Page 3 ------------ -->
<h2> OÏDIUM </h2>
<h3> FRUIT</h3>
<p>Tous les éléments de biologie, de lutte alternative et de suivi de l’oïdium disponibles en cliquant sur ce lien</p>
<h4> Situation actuelle</h4>
<p> Aucune tache n’a été observée sur les parcelles du réseau
mais des symptômes d’oïdium sur feuilles ont été observés
dans le Toulois sur un secteur très sensible.</p>
<h4> Analyse de risque</h4>
<p> Le risque oïdium est important entre jeudi et samedi avec les
pluies prévues et la période de grande sensibilité de la vigne
(floraison). Surveillez vos parcelles notamment celles
sensibles en cherchant la présence de feutrage gris foncé,
poussiéreux sur la face inférieure des feuilles.</p>
<h2> TORDEUSES</h2>
<h3> FRUIT</h3>
<p> Tous les éléments de biologie, de lutte alternative et de suivi des tordeuses disponibles en cliquant sur ce lien</p>
<h4> Situation actuelle</h4>
<p> Le vol de première génération est terminé. Les glomérules et les larves de 1ère génération vont être visibles sur les
inflorescences. En ce début de semaine aucun glomérule n’a été observé.</p>
<p> Cochylis : 0 capture</p>
<p> Eudémis : 0 à 4 captures (1,0 en
moyenne, 4/11 parcelles avec des captures)</p>
<h4> Analyse de risque</h4>
<p> Les conditions de la semaine sont favorables au vol.</p>
<p> Le comptage des larves de 1ère génération adébuté. Pour évaluer leur importance, vous pouvez suivre le protocole
de comptage en page 3. Une lutte spécifique n’est pas nécessaire sur les larves de 1ère génération car les attaques
ont un faible impact sur la vigne.</p>
<p> Relevez régulièrement vos pièges pour localiser le pic de vol de la 2ème génération qui peut provoquer des dégâts
plus significatifs.</p>
<footer> 3</footer>
<footer> BSV n° 09</footer>
<hr /><!-- ------------ Page 4 ------------ -->
<h2> ANNEXES</h2>
<h3> FRUIT</h3>
<p> NOTE NATIONALE BSV : Les abeilles, des alliées pour nos cultures : protégeons-les !</p>
<p> A l’approche de la floraison, utilisez un insecticide ou acaricide portant la mention « abeilles » et intervenez en
dehors des périodes de butinage (très tôt le matin ou en soirée), lorsque la température est inférieure à 13°C, par
temps nuageux.</p>
<p> PENSEZ A OBSERVER VOS CULTURES AVANT DE TRAITER CAR IL EST INTERDIT DE TRAITER EN PRESENCE
D’ABEILLES MEME SI LE PRODUIT COMPORTE LA MENTION « ABEILLES » !</p>
<p> Pour en savoir plus :</p>
<p > Note nationale BSV Abeilles</p>
<p > Les abeilles butinent</p>
<footer > 4</footer>
<footer > BSV n° 09</footer>
<hr /><!-- ------------ Page 5 ------------ -->
<p> Retrouvez gratuitement le BSV toutes les semaines sur les sites Internet de
la Chambre Régionale d’Agriculture Grand Est :
http://www.grandest.chambre-agriculture.fr/index.php?id=2853502
et de la DRAAF :
http://draaf.grand-est.agriculture.gouv.fr/Surveillance-des-organismes</p>
<h5> ÉDITÉ SOUS LA RESPONSABILITÉ DE LA CHAMBRE
RÉGIONALE D’A GRICULTURE GRAND EST SUR LA BASE
DES OBSERVATIONS RÉALISÉES PAR LES PARTENAIRES
DU RÉSEAU VIGNE</h5>
<p> Viticulteurs volontaires — Chambre d ’ Agriculture de la Meuse — Chambre Régionale
d ’ Agriculture Grand Est — FREDON Lorraine</p>
<p> Rédaction : FREDON Lorraine et Chambre Régionale d’Agriculture Grand Est (CRAGE)
Dans une démarche d'amélioration continue de qualité de la surveillance biologique du territoire, la DRAAF
assure un contrôle de second niveau sur l'ensemble du processus d'élaboration des BSV</p>
<p> Crédits photos: FREDON Lorraine</p>
<p> Animation du réseau Vigne :
Amélie MARI – FREDON Lorraine – 03.83.33.86.76 — amelie.mari@fredon-lorraine.com</p>
<p> Coordination et renseignements :
Claire COLLOT – CRAGE – 03 83 96 85 02 – claire.collot@grandest.chambagri.fr
Karim BENREDJEM – CRAGE – 03 26 65 18 52 – karim.benredjem@grandest.chambagri.fr</p>
<p> Pour recevoir le Bulletin de Santé du Végétal par courrier électronique, vous pouvez en faire la
demande sur le site internet de la Chambre d'Agriculture du Grand Est
http://www.grandest.chambre-agriculture.fr/productions-agricoles/ecophyto/bulletins-de-sante-du-vegetal/abonnez
-vous-gratuitement-a-nos-bsv/</p>
<p> Action pilotée par le ministère chargé de l'agriculture, avec l’appui financier de l’Agence Française de Biodiversité, par les
crédits issus de la redevance pour pollutions diffuses attribués au financement du plan ECOPHYTO II.</p>
<footer> 5</footer>
<footer> BSV n° 09</footer>
</body>
</html>
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment