De grandes phylogénies comprenant des centaines ou des milliers d'espèces individuelles sont souvent assemblées à l'aide de séquences d'un petit nombre de locus génétiques disponibles dans des bases de données en ligne telles que Genbank. Cela peut être problématique parce que la phylogénie est limitée par le nombre de loci disponibles et parce que les utilisateurs doivent faire confiance à l'identification taxonomique précise des séquences qui ne sont souvent pas liées à des spécimens spécifiques de sorte que leurs déterminations puissent être confirmées.
Les herbiers représentent un ressource énorme et sous-utilisée pour le séquençage de marqueurs à partir de spécimens rares et peu communs, et présentent les avantages de déterminations fiables et vérifiables et d'informations morphologiques facilement disponibles. Cependant, quelques inconvénients des spécimens d'herbier pour ce type de travail sont l'ADN hautement fragmenté que les spécimens de référence produiront généralement, et le travail nécessaire pour déplacer un grand nombre d'échantillons du bon au laboratoire pour compléter la séquence.
Dans un nouvel article publié dans Applications en sciences végétales, les auteurs principaux Ryan A. Folk et Heather R. Kates et leurs collègues présentent un système de gestion intégré pour rationaliser l'ensemble de l'échantillonnage vers le pipeline de séquençage. Appelé SLIMS (Système de gestion des informations de l'échantillon au laboratoire), le système utilise des identifiants uniques et une base de données taxonomique reliant l'échantillon aux images de spécimens et aux résultats de laboratoire humide. Une fois échantillonnées, les images de bons liés sont téléchargées sur la plateforme de science citoyenne Notes from Nature, où les métadonnées sont générées via la transcription des étiquettes, tandis que le tissu lui-même subit un protocole d'extraction et de séquençage d'ADN à haut débit optimisé pour les spécimens d'herbier.

Les auteurs ont appliqué leur pipeline de gestion à une phylogénie d'environ 15,000 50 espèces du clade fixateur d'azote des angiospermes, produisant un ensemble de données comprenant environ 10 % de toutes les espèces du clade. Dans l'ensemble, l'utilisation du système de gestion a conduit à un échantillonnage d'herbier prenant environ 5 minutes-personnes par spécimen et à une extraction d'ADN prenant environ 1.2 minutes-personnes par échantillon. Le taux d'erreur d'échantillonnage s'élevait à environ 0.2 % et le taux d'échec de séquençage n'était que de XNUMX %.
Les auteurs ont optimisé le pipeline pour leurs besoins phylogénétiques spécifiques, mais l'ont proposé sous la forme d'une série de scripts modulaires plutôt que d'un seul logiciel unifié afin qu'il puisse être facilement adapté aux besoins de divers projets et types d'échantillons. « Un travail considérable a été consacré aux workflows de numérisation à haut débit dans les herbiers ; des méthodes parallèles pour permettre d'autres analyses en aval de spécimens d'herbier pourraient un jour permettre à une grande partie des collections d'aujourd'hui d'être associées à des données moléculaires et autres reposant sur un échantillonnage destructeur », écrivent-ils. "Nous prévoyons que les approches d'échantillonnage à haut débit comme celle présentée ici feront partie intégrante de la boîte à outils phylogénomique dans les futurs projets à grande échelle."
