diff --git a/rapport_impact_datapapers_tetis.qmd b/rapport_impact_datapapers_tetis.qmd
index 4a74881770942011f7cf2d70cf31766750320f10..b29873dd3a98481f70d8d267cb66e38627de2b9d 100644
--- a/rapport_impact_datapapers_tetis.qmd
+++ b/rapport_impact_datapapers_tetis.qmd
@@ -1,7 +1,7 @@
 ---
 title: "Analyse de l'impact des data papers"
 license: "CC BY"
-date: 2024-01-31
+date: 2025-04-07
 author:
     - name: Rémy Decoupes
       orcid: 0000-0003-0863-9581
@@ -19,7 +19,7 @@ L'objectif de cette étude est d'analyser l'impact des data papers sur la réuti
 
 Pour se faire, plusieurs API (*Application Programming Interface*) sont utilisées. Hal (pour INRAE) et Agritrop (pour le CIRAD) constituent la source des data papers, alors que les indicateurs pour les jeux de données sont obtenus via Dataverse.Cirad.fr (CIRAD) et Entrepôt.Recherche.Data.Gouv.Fr (INRAE).
 
-En résumé des expérimentations menées par cette étude, il apparaît que les data papers TETIS (*14*) utilisent majoritairement le Dataverse CIRAD. L'utilisation de Entrepôt.Recherche.Data.Gouv.Fr est plus récente (*2021*), avec un nombre moyen de téléchargements par jeux de données de *10* pour INRAE (*30* jeux) et *55* pour le CIRAD (*120* jeux). Par ailleurs, les jeux de données associés à un data paper sont beaucoup plus téléchargés, en médiane, on observe plus de *100* téléchargements contre *5* pour les jeux sans data papers. 
+En résumé des expérimentations menées par cette étude, il apparaît que les data papers TETIS (*16*) utilisent majoritairement le Dataverse CIRAD. L'utilisation de Entrepôt.Recherche.Data.Gouv.Fr est plus récente (*2021*), avec un nombre moyen de téléchargements par jeux de données de *15* pour INRAE (*35* jeux) et *80* pour le CIRAD (*120* jeux). Par ailleurs, les jeux de données associés à un data paper sont beaucoup plus téléchargés, en médiane, on observe plus de *150* téléchargements contre *5* pour les jeux sans data papers. 
 
 |                          | INRAE                                                                                                                          | CIRAD                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |
 |---------------|----------------------|-----------------------------------|
@@ -65,7 +65,8 @@ En résumé des expérimentations menées par cette étude, il apparaît que les
 | Version | Date       | Description de la Modification           | Auteur          |
 |---------|------------|-----------------------------------------|-----------------|
 | 1.0.   | 2024-01-25 | Version initiale du document             | Rémy Decoupes    |
-| 1.1.   | 2024-01-31 | Ajout de data papers non Scientific data ou Data in Brief.           |     |
+| 1.1.   | 2024-01-31 | Ajout de data papers non Scientific data ou Data in Brief.           |
+| 1.2.   | 2025-04-07 | Actualisation pour 2024.           |     |
 
 {{< pagebreak >}}
 
@@ -114,20 +115,6 @@ En interrogeant l'API, les data papers publiés dans la collection de TETIS peuv
 
 La @fig-hal-inrae montre la série temporelle de publication de data papers depuis 2019. Il est à noter qu'il y a une accélération du nombre de datapaers depuis fin 2022. Les 2 revues, **Scientific Data** et **Data in Brief** sont les plus utilisées.
 
-```{python}
-#| label: fig-hal-inrae
-#| fig-cap: Histogramme des publications de data papers de l'UMR TETIS sous Hal depuis 2019
-plt.figure(figsize=(12, 6))
-sns.histplot(data=df_subtype_datapaper_filtered, x="producedDate_s", stat="count", binwidth=365, hue="journalTitle_s", multiple="stack")
-# plt.title('Histogramme des data/software papers par date de publication par les revues')
-plt.yticks(range(0, 10, 1))
-plt.xlabel('Date de publication')
-plt.ylabel('Nombre de data ou software papers')
-plt.xticks(rotation=45);
-```
-
-## 1.2 Collection TETIS/CIRAD via [Agritrop](https://agritrop.cirad.fr/cgi/search/archive/advanced?...) {#collection-tetiscirad-via-agritrop}
-
 ```{python}
 file_path = 'external_data/2023-01-22_agritrop_data_papers.txt'
 with open(file_path, 'r', encoding='utf-8') as file:
@@ -152,6 +139,38 @@ df_citations["journal"] = df_citations["journal"].str.strip()
 df_citations = df_citations[df_citations['journal'] != 'Scientific Reports']
 ```
 
+```{python}
+journals = set(df_subtype_datapaper_filtered["journalTitle_s"].dropna().unique()) | \
+           set(df_citations["journal"].dropna().unique())
+
+# Générer une palette de couleurs cohérente pour tous les journaux
+palette = dict(zip(sorted(journals), sns.color_palette("tab20", len(journals))))
+
+df_subtype_datapaper_filtered["year"] = pd.to_datetime(df_subtype_datapaper_filtered["producedDate_s"]).dt.year
+df_citations["year"] = pd.to_datetime(df_citations["date"]).dt.year
+```
+
+```{python}
+#| label: fig-hal-inrae
+#| fig-cap: Histogramme des publications de data papers de l'UMR TETIS sous Hal depuis 2019
+plt.figure(figsize=(12, 6))
+sns.histplot(
+    data=df_subtype_datapaper_filtered,
+    x="year",
+    hue="journalTitle_s",
+    multiple="stack",
+    palette=palette,
+    discrete=True
+)
+plt.yticks(range(0, 10, 1))
+plt.xlabel('Année de publication dans Hal INRAE')
+plt.ylabel('Nombre de data ou software papers')
+plt.xticks(rotation=45)
+```
+
+## 1.2 Collection TETIS/CIRAD via [Agritrop](https://agritrop.cirad.fr/cgi/search/archive/advanced?...) {#collection-tetiscirad-via-agritrop}
+
+
 Agritrop ne semble pas proposer d'API. Il est donc nécessaire de filtrer manuellement, à travers le site web, les résultats d'Agritrop via `Affiliation : TETIS` et titre de revues de data papers : `Scientific data` et `Data in brief`. En effet, aucun champs ne permet de filtrer sur les articles de type data papers. `{python} len(df_citations["titre"])` data papers ont été téléversés sur Agritrop depuis 2019. Seuls ces deux journaux ont été sélectionnés pour cette étude car ce sont les seuls présent dans la collection Hal de TETIS. Dans la version 1.1 du document, le data paper de @jolivot_harmonized_2021 publié dans *Earth System Science Data* a été ajouté manuellement à la collection.
 Pour plus d'information, le document CIRAD de Laurence @dedieu_revues_nodate propose une liste exhaustive des journaux acceptant les data papers.
 
@@ -160,14 +179,19 @@ Pour plus d'information, le document CIRAD de Laurence @dedieu_revues_nodate pro
 #| fig-cap: Histogramme des publications de data papers Agritrop depuis 2019
 
 plt.figure(figsize=(12, 6))
-
-sns.histplot(data=df_citations, x="date", stat="count", hue="journal", multiple="stack")
-# plt.title('Histogramme des data/software papers par date de publication par les revues')
+sns.histplot(
+    data=df_citations,
+    x="year",
+    hue="journal",
+    multiple="stack",
+    palette=palette,
+    discrete=True
+)
 plt.gca().invert_xaxis()
 plt.yticks(range(0, 10, 1))
-plt.xlabel('Date de publication')
+plt.xlabel('Année de publication dans Agritrop CIRAD')
 plt.ylabel('Nombre de data papers')
-plt.xticks(rotation=45);
+plt.xticks(rotation=45)
 ```
 
 La @fig-agritrop-cirad propose l'historique de dépôts de data papers sur Agritrop.
@@ -201,7 +225,7 @@ Après fusion des deux sources puis suppression des articles présent dans les d
 #| fig-cap: Répartition de l'ensemble des publications par revue
 journal_counts = df_no_duplicates["journal"].value_counts()
 
-plt.figure(figsize=(3, 3))
+plt.figure(figsize=(10, 6))
 plt.pie(journal_counts, labels=journal_counts.index, autopct=lambda p: '{:.0f} ({:.1f}%)'.format(p * sum(journal_counts) / 100, p), startangle=140, colors=plt.cm.Paired.colors);
 ```
 
@@ -273,6 +297,7 @@ En ce qui concerne les citations des data papers, nous les obtenons avec l'API d
 import configparser
 import requests
 import pandas as pd
+import numpy as np
 
 credential_file = "credentials.ini"
 credential_config = configparser.ConfigParser()
@@ -298,11 +323,16 @@ def storage_szie_of_dataverse(dataverse, url=url_rdg, header=headers_data_inrae)
 # get dataset ID from a dataverse
 def datasetID_from_dataverse(dataverse, url=url_rdg, header=headers_data_inrae):
     url_dataverse = url + "/api/dataverses/" + dataverse
-    try:
-        reponse = requests.get(url_dataverse + "/contents", headers=header).json()["data"]
-    except:
-        print(requests.get(url_dataverse + "/contents", headers=header).json())
-        reponse = {}
+    max_retries = 5
+    delay = 2
+    for attempt in range(1, max_retries + 1):
+        try:
+            reponse = requests.get(url_dataverse + "/contents", headers=header).json()["data"]
+            break
+        except:
+            # print(requests.get(url_dataverse + "/contents", headers=header).json())
+            print(f"DatasetID: error with: {dataverse}")
+            reponse = {}
     return reponse
 
 # get all data from a dataverse
@@ -671,16 +701,16 @@ Afin de voir l'impact sur la réutilisation des jeux de données accompagnés ou
 La première contient l'ensemble des jeux de données de la collection TETIS sur Recherche.Data.Gouv (dont 1 provenant de l'unique Data paper TETIS (@schaeffer_labeled_2022) dont les données sont déposées dans cet entrepôt).
 Le second est la liste des jeux de données cités par les data papers de TETIS. La @fig-boxplot-avec-sans-datapeaper illustre cette comparaison en affichant la boîte à moustache de ces deux distributions.
 
-Nous pouvons observer que la médianne des téléchargement des jeux de données accompagnés par un data paper est nettement supérieur (aux alentours de 110 pour 5). Même les jeux de données parmi les 5% les moins téléchargés de la distribution des data papers, restent nettement supérieur aux 5% les plus téléchargés des sans data papers.
+Nous pouvons observer que la médianne des téléchargement des jeux de données accompagnés par un data paper est nettement supérieur (aux alentours de 150 pour 5). Même les jeux de données parmi les 5% les moins téléchargés de la distribution des data papers, restent nettement supérieur aux 5% les plus téléchargés des sans data papers.
 
 La limite à cette comparaison est que les jeux de données sans data paper proviennent de la collection INRAE, nettement plus récente que celle de CIRAD, et dont les jeux de données sont moins téléchargées (cf [Comparaison collections CIRAD / INRAE](#collection-tetiscirad-via-dataverse-cirad))
 
 # Conclusion {#conclusion}
 Les data papers sont utiles à l'Open Science en aidant à améliorer la reproductibilité de la recherche. En effet, ils permettent de fournir une documentation complète pour décrire l'origine, la pertinence du jeu de données (pour sa communauté de recherche) et proposent des potentiels cas de réutilisation. 
 
-De plus, ils permettent de donner une visibilité importante à la production de données ou logiciels de TETIS. En effet, cette étude montre que les jeux de données accompagnés par des data papers sont beaucoup plus téléchargés (*110* contre *5* téléchargements en mediane). Les data papers constituent donc un moyen efficace pour porter à connaissance notre production de données à nos communautés de recherche. 
+De plus, ils permettent de donner une visibilité importante à la production de données ou logiciels de TETIS. En effet, cette étude montre que les jeux de données accompagnés par des data papers sont beaucoup plus téléchargés (*150* contre *5* téléchargements en mediane). Les data papers constituent donc un moyen efficace pour porter à connaissance notre production de données à nos communautés de recherche. 
 
-Le CIRAD a entrepris une démarche d'ouverture de ses données depuis une plusieurs années. Cette politique porte clairement ses fruits, elle a permis de mettre à disposition plus de *120* jeux de données (contre *30* pour INRAE) avec un total de *6000* téléchargements (contre *250* INRAE). Depuis 2021, des initiatives similaires sont en cours à INRAE (soutenu notamment par les Référents Données Opérationnels (RDO) de TETIS), il est nécessaire de les poursuivre.
+Le CIRAD a entrepris une démarche d'ouverture de ses données depuis une plusieurs années. Cette politique porte clairement ses fruits, elle a permis de mettre à disposition plus de *120* jeux de données (contre *35* pour INRAE) avec un total de *10000* téléchargements (contre *600* INRAE). Depuis 2021, des initiatives similaires sont en cours à INRAE (soutenu notamment par les Référents Données Opérationnels (RDO) de TETIS), il est nécessaire de les poursuivre.
 
 Plusieurs pistes de reflexion peuvent être menées pour accompagner  davantage la réutilisation de notre production de données. Tout d'abord, d'autres indicateurs que le nombre de téléchargements doivent être pris en compte pour évaluer le taux de réutilisation (Est-ce que les jeux de données des data papers ne sont pas automatiquement moissonnés par des plateformes ce qui a pour effet d'augmenter le nombre de téléchargements ? Si oui, comment le mesurer ?).
 En complément des data papers, quel type de promotion pouvons-nous mettre en place ? Nous pouvons envisager le dépôt des jeux de données dans des entrepôts communautaires (comme HuggingFace pour les modèles d'Intelligence Articficielle à travers le [groupe TETIS](https://huggingface.co/UMR-TETIS) par exemple). Nous pouvons également organiser des [Hackathons](https://mood-h2020.eu/time-for-a-mood-hack-antimicrobial-resistance-hackathon/) comme cela a été fait pour le projet MOOD.