Le catalogage de la diversité végétale et la description de nouvelles espèces est une tâche critique et continue qui est entravée par un manque d'expertise et un processus intrinsèquement lent. Même dans des conditions idéales, collecter un spécimen dans la nature, le décrire comme une nouvelle espèce et publier cette description peut prendre un à deux ans. Le plus souvent, cela peut prendre des décennies. Les herbiers du monde entier abritent un arriéré de pas moins d'un million de spécimens non identifiés, et on pense qu'ils contiennent déjà le majorité des espèces végétales non décrites. Des algorithmes informatiques tirant parti de l'apprentissage automatique, formés sur des ensembles de données annotés de haute qualité, pourraient constituer un élément clé de la solution.

Dans un nouvel article publié dans Applications en sciences végétales" Machine Learning in Plant Biology numéro spécial, l'auteur principal Damon P. Little et ses collègues ont cherché des moyens de exploiter ce potentiel. Les auteurs ont organisé un concours sur la Plateforme de science des données Kaggle développer un algorithme d'identification automatique des espèces à l'aide de l'apprentissage automatique. Le groupe a proposé un ensemble de données pour la formation qui comprenait plus de 46,000 683 spécimens d'herbier imagés représentant XNUMX espèces de la famille Melastomataceae. Comme c'est généralement le cas pour les collections d'herbiers, certaines de ces espèces étaient représentées par de nombreux spécimens et d'autres par relativement peu.

Diagramme de flux de travail du Défi Herbier 2019. Source: Peu et al. 2020/XNUMX/XNUMX.

Le concours s'est déroulé sur plusieurs mois et a produit 254 modèles créés par 22 équipes différentes. Les quatre premières entrées ont pu identifier les espèces avec une précision supérieure à 88 %. Les équipes gagnantes provenaient d'une entreprise privée et d'une université publique en Chine, une équipe de Facebook AI Research et, étonnamment, un individu, vétérinaire de formation, qui "a rejoint le concours pendant ses vacances et a conçu les modèles sur son téléphone". ”

Bien que les résultats du concours aient été meilleurs que prévu, seule la première étape du problème a été abordée. Actuellement, les algorithmes ne peuvent qu'attribuer les spécimens au taxon le plus probable parmi ceux sur lesquels ils ont été entraînés ; ils ne peuvent pas les désigner comme inconnus ou nouveaux. « Les algorithmes ne sont pas entraînés à “savoir ce qu'ils ignorent”, ils sont conçus pour fournir des résultats basés sur les données d'entraînement », explique Barbara Ambrose, co-auteure et conservatrice adjointe en génomique végétale au Jardin botanique de New York. La prochaine étape consiste à formuler un algorithme capable de désigner un spécimen comme une nouvelle espèce probable. Les auteurs sollicitent actuellement des financements pour relever ce défi.

Ambrose et Little travaillent au développement d'un outil permettant à tout herbier d'analyser ses spécimens non identifiés. « L'idée est de soumettre une photo du spécimen, et l'algorithme proposera les cinq meilleures hypothèses. Nous pensons que cela permettra de résorber l'arriéré de spécimens et de faciliter leur identification par un expert. De nombreux herbiers sont petits et manquent d'expertise taxonomique ; cet outil leur serait donc très utile pour la gestion de leurs collections », explique Ambrose. « Nous n'en sommes pas loin, car le Dr Little a déjà développé un prototype que nous appelons… » iCurateNous aurons besoin de plus de fonds et de temps pour y parvenir. iCurate plus robuste afin de bénéficier aux herbiers du monde entier. Mais espérons que ce ne soit pas trop loin dans le futur.

Dans cette veine, Ambrose et Little ont récemment animé une deuxième concours Kaggle qui élargit considérablement le champ taxonomique du premier. « Nous avions 153 équipes en compétition avec un ensemble de données de plus d'un million de spécimens représentant plus de 1 32,000 espèces de plantes vasculaires. Grâce aux algorithmes développés lors de cette compétition, nous sommes prêts à poursuivre le développement. » iCurate et s'attaquer à l'automatisation de la reconnaissance de nouvelles espèces.