L'un des nombreux ateliers interactifs proposés à Botany 2020 portait sur la flore numérique de l'Amérique du Nord (nord du Mexique, pour lui donner son nom complet ; FNA en abrégé), qui se trouve en version bêta ici. L'atelier a servi à la fois d'introduction au projet et d'initiation à son utilisation pour les recherches sémantiques et la production d'informations sous forme de listes de taxons. Beaucoup d'entre nous connaissent la version imprimée du FNA, une série massive de 30 volumes en préparation depuis 1993, dont 21 ont jusqu'à présent été publiés. Une fois terminé, le projet traitera plus de 20,000 7 espèces végétales - environ XNUMX% du total mondial - y compris les synonymes, les clés d'identification, les descriptions, les gammes, les illustrations, etc.

La faiblesse des flores imprimées, cependant, est qu'elles peuvent se périmer rapidement, à mesure que la compréhension scientifique des groupes change. La taxonomie des fougères, par exemple, a déjà considérablement changé depuis que la FNA a commencé à être publiée. Entrez FNA Online, un référentiel consultable qui peut être mis à jour au besoin pour rester à jour. J'ai discuté avec Jocelyn Pender, gestionnaire des données sur la biodiversité pour Agriculture et Agroalimentaire Canada et animatrice de l'atelier, des objectifs et des défis du projet FNA Online.

Deux des principaux objectifs du projet sont de garantir l'actualité des données et d'élargir la base d'utilisateurs en facilitant la recherche de descriptions taxonomiques par les humains et les machines. « Je suis convaincu que l'avenir des flores est numérique et axé sur les données », affirme Pender. « C'est dans cette optique que nous développons la FNA Online. Nous souhaitons étendre l'utilité de la FNA au-delà de son public traditionnel de botanistes et taxonomistes professionnels, pour toucher un public plus large incluant les enseignants, les citoyens scientifiques, les botanistes amateurs, les organismes de réglementation, les décideurs politiques, les horticulteurs, les agronomes, les écologues, les biologistes moléculaires, les phylogénéticiens, etc. Cela implique de multiplier les moyens d'interaction avec le contenu. Notre vision comprend des clés interactives disponibles à différents niveaux d'expertise, des listes de contrôle instantanées pour les organismes de réglementation et les enseignants, ainsi que des matrices taxon-caractère téléchargeables pour les écologues et les biologistes moléculaires. »

Un défi majeur auquel sont confrontés les créateurs du FNA numérique est de rendre les descriptions taxonomiques, écrites en langage naturel par de nombreux auteurs différents, lisibles par machine afin qu'elles puissent être facilement recherchées et comparées. Plusieurs aspects de l'utilisation du langage naturel, et des descriptions taxonomiques en particulier, rendent cette tâche difficile.

Premièrement, les auteurs individuels ont des styles de description uniques et utilisent un vocabulaire différent. "Nous sommes confrontés à des défis pour permettre la comparaison du contenu analysé entre les traitements", explique Pender. « Comment pouvons-nous développer une clé interactive permettant aux utilisateurs de filtrer les plantes vers la couleur des pétales « rouge » alors qu'un auteur décrit les pétales comme « fuchsia » et l'autre comme « marron-auburn » ? Nous avons travaillé dur pour développer des synonymes pour les termes, mais cela demande beaucoup de travail et est sujet aux erreurs humaines et aux inférences incorrectes. »

Un autre obstacle réside dans la complexité du langage botanique. "Un terme peut avoir deux significations uniques et non superposées dans deux familles", explique Pender. « De plus, au sein de certains groupes complexes, il n'y a pas de consensus fort parmi les botanistes sur le sens des mots. Enfin, les descriptions taxonomiques utilisent un style particulier de sous-langage qui est télégraphique ; il omet les mots non essentiels que les humains insèrent facilement. Les machines ont du mal à faire des inférences qui relient des phrases et des idées. »

Pour ces raisons et d'autres, l'analyseur de langage génère des « ordure » ​​- une sortie absurde de noms ou de valeurs qui sont difficiles à contourner et doivent être traitées pour que les fonctions de recherche soient pleinement opérationnelles. À ce jour, l'équipe derrière la flore numérique a analysé toutes les descriptions dans tous les volumes publiés du FNA, mais travaille toujours à améliorer la "propreté" et l'organisation des données. Une équipe canadienne est également en train de créer une Flore du Canada en ligne dédiée, que Pender envisage comme «un produit de mélange de données évolutif, intégrant des données de spécimens, des données d'occurrence, des données de traits analysés provenant de diverses sources».

Si vous souhaitez essayer la version bêta de FNA Online, le site propose un guide pour composer diverses requêtes et types de sortie. Pender espère qu'une grande variété d'utilisateurs l'expérimenteront. "[N]ous aimerions voir émerger des groupes d'utilisateurs et des cas d'utilisation que nous n'avons pas encore imaginés."