
Printemps de la donnée – Curathon : dev-outils pour la modération de l’entrepôt Nakala
En bref
Fabriquons quelques outils pour soulager un peu le processus de curation manuel de l’entrepôt Nakala maintenant qu’une grille de modération est disponible.
Contexte
Nos établissements ont déjà déposé des milliers de fichiers dans des centaines de Data dans l’entrepôt SHS Nakala et plusieurs projets envisagent de déposer de nouvelles données à très court terme.
Depuis le 29 janvier 2025, Huma-Num a mis en production un circuit de modération pour Nakala (cf. https://humanum.hypotheses.org/12528), proposé une grille de modération (https://documentation.huma-num.fr/media/nakala/Nakala_Grille_moderation_mai2024.pdf) et une documentation dédiée à la description de jeu de données (https://documentation.huma-num.fr/nakala-guide-de-description/).
Les consortiums disciplinaires ont commencé à stabiliser des pratiques.
La curation de données de recherche se développe dans les entrepôts pour assurer une montée en qualité et augmenter le potentiel de réutilisation.
Le processus de curation semble indispensable et doit être harmonisé à large échelle, mais il est très exigent et rigoureux.
Toute méthode et outil en mesure de soulager le processus de curation manuel semble bienvenue pour envisager une mise en pratique concrète harmonisée nationale et un passage à l’échelle.
Programme
20/05/2025
9h30 – 12h00 : Séminaire : Parlons grille de modération
Hybride synchrone [MSHS-Poitiers + visio]
Curateurs, modérateurs, codeurs, experts disciplinaires, représentants d’entrepôts et curieux. Échanges pour approfondir le travail d’identification des besoins et des solutions envisageables techniquement en annotant la grille de modération.
A la fin de cette séance chaque ligne de la grille de modération est enrichie d’annotations permettant d’identifier ce qui pourra être expérimenté à très court terme par « la team coding » pour l’atelier développement de l’après-midi. En compléments certaines lignes seront annotées comme particulièrement difficiles, problématiques et nécessiterons des échanges croisés et débats ultérieurs. Enfin une annotation indiquera ce qui pourrait être transposé ou utile à d’autres entrepôts.
14h00 – 18h00 : Atelier Dév : Preuve de concept (POC)
Hybride synchrone [MSHS-Poitiers + visio]
Seul ou à plusieurs, des scripts seront réalisées pour tenter de donner vie à la version 1 d’un outil d’assistance à la curation de données de recherche.
L’idée est que cet outil puisse être utilisé pour modérer un dépôt déjà réalisé, mais qu’il soit également suffisamment souple pour être utilisé précocement par les déposants qui pourront vérifier ce qu’il manque avant leur dépôt.
En amont de la rencontre, un « squelette de programme python » et un « jeu de données martyr » à modérer sera disponible sur une forge Gitlab, afin de faciliter le processus de développement à plusieurs.
Lien vers le dépôt de code : https://gitlab.huma-num.fr/mshs-poitiers/plateforme/assist_moderation
S’agissant d’une expérimentation collective, le code proposé sera volontairement très lisible, digeste, documenté. Les versions compactes de code ou nécessitant trop de connaissances de la programmation orientée objet seront le plus possible évitées. Les programmeurs occasionnels seront donc bienvenus et soutenus.
Le code réalisé sera ouvert et respectera les bonnes pratiques et documentations disponibles ici : https://scienceouverte.univ-poitiers.fr/piliercodeslogiciel/
03/06/2025
10h00 – 12h00 : Bilan Go – No Go
Distanciel synchrone [visio]
Retour sur les développements réalisés, les résultats obtenus, les difficultés rencontrées.
Répondre à la question Go / No Go, pour envisager ou non la poursuite d’un futur travail commun sur ce sujet.
Préparation et Animation : David Chesnet & Michael Nauge
Lien pour l’inscription : https://survey.appli.univ-poitiers.fr/983511?lang=fr