Les métabolites spécialisés sont essentiels pour les interactions plante-environnement, comme attirer les pollinisateurs ou se défendre contre les herbivores. Ils sont également indispensables pour être utilisés comme produits pharmaceutiques, cosmétiques, nutrition et pour la fabrication de médicaments, colorants, parfums, arômes et compléments alimentaires.
L'identification des gènes codant pour les enzymes qui produisent des métabolites spécialisés est essentielle à l'ingénierie de leurs voies. Cette approche technique peut être utilisée pour modifier la structure des métabolites spécialisés, ou fabriquer des molécules complètement nouvelles, avec des propriétés biologiques nouvelles ou améliorées.

Contrairement aux métabolites généraux, qui sont directement impliqués dans la croissance et le développement d'une plante et généralement conservés parmi les espèces végétales, les métabolites spécialisés sont spécifiques à la lignée et très diversifiés. De nombreux gènes qui sous-tendent la production du métabolisme spécialisé appartiennent aux mêmes familles de gènes que ceux impliqués dans le métabolisme général, ce qui les rend difficiles à distinguer.
Une stratégie d'apprentissage automatique, l'apprentissage par transfert, a été utilisée pour identifier des gènes spécialisés du métabolisme dans un nouvelle étude publiée dans in silico Plantes dirigé par le professeur Shin Han Shiu de l'Université d'État du Michigan. Avec cette approche, les auteurs ont pu utiliser les connaissances des Arabidopsis thaliana pour prédire les fonctions des gènes dans la tomate cultivée, qui a moins de gènes annotés expérimentalement.
« Cette approche utilise les meilleures espèces végétales annotées, Arabidopsis thaliana, pour filtrer, dans certains cas, les gènes potentiellement mal annotés de la tomate. En formant un nouveau modèle basé uniquement sur les gènes restants, le modèle s'améliore considérablement. Sans cette étape de filtrage, les gènes mal annotés conduisent à des modèles sous-optimaux, c'est pourquoi nous voyons de pires prédictions dans les modèles précédents basés uniquement sur les données de la tomate. explique le premier auteur, le Dr Bethany Moore, actuellement chercheur postdoctoral à l'Université du Wisconsin-Madison.
Les auteurs avertissent que si l'approche d'apprentissage par transfert a bien fonctionné pour les gènes du métabolisme général, elle n'a pas eu autant d'impact sur la prédiction des gènes du métabolisme spécialisés, probablement parce que les voies métaboliques spécialisées sont par définition spécialisées - ce que vous apprenez chez une espèce n'a pas autant d'impact. s'appliquer nécessairement à l'autre. De plus, les gènes potentiellement mal annotés doivent être vérifiés expérimentalement.
Selon Shiu, "l'approche d'apprentissage automatique excelle dans l'identification de modèles dans des ensembles de données provenant de nombreuses sources différentes. Un bon modèle basé sur les modèles identifiés peut ensuite être utilisé pour faire des prédictions qui peuvent être testées plus avant. Avec de plus en plus de données disponibles, nous nous attendons à voir des applications plus larges de l'apprentissage automatique pour résoudre les problèmes de science végétale.
Les logiciels développés pour ce projet et d'autres sont disponibles sur https://github.com/ShiuLab.
