La numérisation des images et des informations des spécimens d'herbier élargit leur utilisation et fournit une ressource importante pour les études phénotypiques et phénologiques. Au printemps 2020, un référentiel clé, iDigBio, compte plus de 19 millions de spécimens numérisés. Des images annotées de haute qualité peuvent être utilisées pour former des algorithmes d'apprentissage automatique afin d'automatiser certaines tâches basées sur des images numériques, ce qui permet de gagner du temps sur la route. Cependant, l'annotation initiale nécessite un investissement élevé en heures-personnes et est souvent effectuée par des bénévoles. Pour cette raison, il est important de trouver les moyens les plus simples et les plus efficaces de permettre aux bénévoles de mener à bien leurs tâches.
Dans un nouvel article publié dans Applications en sciences végétales' Machine Learning in Plant Biology numéro spécial, l'auteur principal Laura Brenskelle et ses collègues ont utilisé un ensemble de données pré-annotées de haute qualité contenant 3000 espèces chacune de Prunus or Acer spécimens à tester la précision des annotations des volontaires de caractères phénologiques dans deux conditions différentes.
Dans le premier, les correcteurs se sont présentés en personne et ont reçu une séance de formation de 15 minutes ainsi qu'un manuel avec des illustrations et des exemples. Dans le second, les marqueurs ont utilisé la plateforme en ligne Notes de la nature et ont reçu le manuel d'instructions sans formation supplémentaire. Dans le deuxième cas, un spécimen nécessitait trois annotations et était attribué à l'annotation convenue par deux correcteurs. Les auteurs ont ensuite étudié l'influence de facteurs tels que les traits et les taxons notés, ainsi que l'expertise botanique, le niveau de carrière universitaire et la vitesse des correcteurs individuels.

Étonnamment, les résultats ont montré que l'expertise botanique, le niveau de carrière et la vitesse n'étaient pas des facteurs importants dans la précision des correcteurs. Au lieu de cela, la précision était régie par les traits et les taxons notés, que la personne ait noté en personne ou en ligne, et l'individu lui-même… certaines personnes étaient simplement plus précises, quels que soient les autres facteurs. Dans l'ensemble, ceux qui apparaissaient en personne étaient beaucoup plus précis, bien que les deux groupes aient raisonnablement bien réussi. "Nous pensons que deux facteurs principaux peuvent avoir contribué au léger retard dans la précision des annotations en ligne : la formation et la qualité de l'image", explique Brenskelle, qui met l'accent sur les livrets de formation complets et la possibilité de zoomer sur les détails d'une image. Elle note également que la notation en triple a amélioré la précision en ligne de XNUMX %. "C'est une autre façon d'améliorer la précision des annotations en ligne, même si cela nécessite trois fois plus d'annotations terminées."
Bien que les traits notés dans cette étude soient simples, Brenskelle est convaincu que les volontaires peuvent être efficacement formés pour des tâches d'annotation plus complexes. « [L]es caractéristiques de cette étude étaient des annotations de présence/absence relativement simples. Il existe d'innombrables tâches d'annotation plus complexes qui pourraient intéresser les chercheurs, en particulier pour la phénologie des plantes. Je pense qu'avec une bonne formation des bénévoles, notre approche générale fonctionnerait pour des traits plus complexes », dit-elle. "Je pense que le plus grand défi que vous auriez à relever avec des traits plus complexes serait d'avoir des images qui montrent un niveau de détail approprié pour les choses que vous demandez aux volontaires de marquer. En dehors de ce défi, je pense que si vous développiez des manuels de formation avec des exemples visuels, cela permettrait aux volontaires de noter des traits plus complexes.
