Le soja transformé est le la plus grande source mondiale d'aliments protéiques pour animaux et la deuxième plus grande source d'huile végétale.

L'identification des gènes qui contrôlent les traits importants fournit la base des améliorations génétiques pour développer des cultures qui produisent plus de rendement pour approvisionner une population croissante et qui sont résistantes aux stress biotiques (par exemple, les insectes nuisibles) et abiotiques (par exemple, le changement climatique). Un transcriptome représente ce petit pourcentage du code génétique qui est transcrit en molécules d'ARN. En étudiant les transcriptomes, les chercheurs espèrent déterminer quand et où les gènes sont activés ou désactivés dans divers types de cellules et de tissus lorsqu'ils sont exposés à différents traitements. Au cours de la dernière décennie, plus de 3000 XNUMX échantillons de données transcriptomiques sur le soja se sont accumulés dans des référentiels publics.

Principales statistiques descriptives des échantillons RNA-seq sur le Base de données Sequence Read Archive (SRA) du National Center for Biotechnology Information. (a) Répartition des échantillons par pays (b) Nombre d'échantillons d'ARS par tissu.

Un nouvel article de revue du Dr Thiago Venancio et des coauteurs de l'Universidade Estadual do Norte Fluminense au Brésil explore l'état de l'art des ressources transcriptomiques du soja et des réseaux de coexpression génique.

L'article présente d'abord les technologies basées sur l'hybridation (c'est-à-dire les puces à ADN) et les technologies basées sur les séquences (c'est-à-dire l'ARN-seq) et discute des avantages de chacune. Plus important encore, les puces à ADN reposent sur des sondes spécifiques à une espèce ou à un transcrit (c'est-à-dire de courtes étendues d'ADN ou d'ARN) qui sont déjà connues pour indiquer leur expression relative. RNA-Seq, d'autre part, peut détecter de nouveaux transcrits car il détermine la séquence d'acide nucléique d'une molécule d'ADN ou d'ARN donnée, qui est ensuite identifiée. La technologie RNA-Seq peut détecter un pourcentage plus élevé de gènes différentiellement exprimés, en particulier les gènes à faible expression. Pour ces raisons, la technologie RNA-Seq a commencé à remplacer les plates-formes de puces à ADN traditionnelles pour effectuer le profilage transcriptionnel. Les principales études qui ont étudié les programmes de transcription du soja dans différents tissus et conditions utilisant les deux technologies sont mises en évidence.

Les auteurs proposent ensuite des approches intégrant l'énorme quantité de données sur les référentiels publics utilisant les réseaux de coexpression de gènes (GCN). Les GCN sont utilisés pour l'exploration, l'interprétation et la visualisation de la relation entre les gènes qui travaillent ensemble pour contribuer à l'expression d'un trait particulier (par exemple, le rendement). "La nature aime le modèle et l'ordre. Dans les systèmes biologiques, les composants moléculaires (par exemple, les gènes, les protéines) sont organisés hiérarchiquement en grappes denses communément appelées modules. Les GCN sont un outil puissant pour identifier les modules de gènes coexprimés qui participent probablement au même processus biologique. Comme les gènes de cultures importantes ont vu leurs fonctions identifiées expérimentalement, les GCN peuvent être utilisés pour déduire les fonctions de gènes inconnus en fonction de la fonction de leurs partenaires de coexpression. Dans une perspective évolutive, ces modules de coexpression peuvent être explorés pour identifier les gènes qui ont acquis de nouvelles fonctions après duplication, et ils peuvent être comparés entre les espèces pour étudier la conservation et la divergence des orthogroupes », explique Venancio.

Enfin, l'article identifie les ressources transcriptomiques du soja et les données d'expression du soja, y compris les Base de données Sequence Read Archive (SRA) du National Center for Biotechnology Information – le plus grand référentiel accessible au public de données de séquençage à haut débit et le Atlas de l'expression du soja – une base de données d'expression génique à haute résolution.