Nourrir une population mondiale qui devrait atteindre 9.8 milliards d’ici 2050, la production alimentaire devra être augmenté de 70%. Ce défi est encore compliqué par l’impact négatif du changement climatique sur le rendement des cultures.

Le développement de nouveaux cultivars et l’identification de stratégies de gestion optimales peuvent conduire à une augmentation des rendements et contribuer à atténuer les effets du changement climatique. Les modèles de culture serviront d'outil d'orientation dans ce travail, permettant des prévisions de rendement basées sur des facteurs tels que l'environnement, les pratiques de gestion et les traits génétiques.

À cette fin, la qualité d’un modèle dépend de ses prédictions. Bien qu'il puisse être tentant d'ignorer tous les modèles, à l'exception de celui qui a constamment démontré la plus grande précision dans ses prédictions, une nouvelle étude publiée dans in silico Plants démontre que la combinaison des prédictions de plusieurs modèles peut entraîner une précision de prédiction améliorée.

Bien que la combinaison des prédictions de plusieurs modèles se soit révélée bénéfique pour déterminer des traits complexes, les travaux antérieurs n’ont pas exploité les modèles intégrant les interactions génétiques et environnementales.

Daniel Kick et Jacob Washburn, tous deux chercheurs généticiens à l'USDA-ARS et à l'Université du Missouri, ont testé si les prévisions de rendement pouvaient être améliorées en utilisant des combinaisons d'ensemble de différents types de modèles, numéros de modèles et systèmes de pondération des modèles.

Les auteurs ont inclus 8 types de modèles intégrant des informations génomiques, environnementales et de gestion et représentent 3 catégories de modèles dans leur travail.

  • Modèles linéaires sont des modèles statistiques qui supposent une relation linéaire entre les variables d'entrée (données génotypiques et environnementales) et la variable de sortie (rendement). Les types de modèles pris en compte dans cette étude étaient le modèle linéaire à effets fixes (LM) et le meilleur modèle prédictif linéaire sans biais (BLUP).
  • Modèles d'apprentissage automatique faire des prévisions de rendement basées sur des modèles dans les données d'entraînement qui peuvent ne pas être facilement apparents à l'aide des méthodes statistiques traditionnelles. Les types de modèles pris en compte dans cette étude étaient les k-voisins les plus proches (KNN), la régression du rayon voisin (RNR), la SVR et la régression forestière aléatoire (RF).
  • Réseaux de neurones profonds (DNN) sont un sous-ensemble de l'apprentissage automatique qui effectue des prédictions de rendement à l'aide de plusieurs étapes de transformations de données non linéaires, où les caractéristiques des données sont représentées par des couches successivement supérieures et plus abstraites. Ces modèles peuvent être optimisés de différentes manières. Les types de modèles considérés dans cette étude étaient « l'optimisation consécutive » des sous-réseaux (DNN-CO) et « l'optimisation simultanée » de tous les sous-réseaux à la fois (DNN-SO).

« Ces modèles reposent sur des hypothèses différentes concernant les données. Certains peuvent être mieux adaptés que d’autres à la prédiction phénotypique et peuvent représenter des modèles de données qui échappent à d’autres. Cela nous a amené à former et tester un ensemble diversifié de modèles », a expliqué Kick.

Les auteurs ont cherché à tester la robustesse des modèles ensemblants et à identifier les types de modèles, ainsi que les stratégies de moyenne de modèles spécifiques, les plus efficaces pour améliorer la prédiction phénotypique. Les modèles ont été entraînés et testés pour prédire le rendement à partir de données génomiques, environnementales et de gestion en utilisant un grand ensemble de données sur le maïs. La capacité des modèles individuels et des ensembles de modèles à prédire avec précision le rendement a été mesurée en comparant l'erreur quadratique moyenne, qui est proportionnelle à la différence entre la valeur de rendement observée et la valeur de rendement prévue.

Les modèles d’ensemble prédisent souvent un rendement meilleur que les modèles uniques. Les prédictions issues d’ensembles de deux modèles avaient 77 % de chances d’avoir une précision améliorée par rapport aux prédictions issues de n’importe quel modèle individuel pris isolément. Toutefois, recourir à un plus grand nombre de modèles n’est pas une panacée. L'avantage d'ajouter des modèles supplémentaires à l'ensemble diminuait à mesure que chaque modèle était ajouté. De plus, l’inclusion de modèles supplémentaires avec des prévisions étroitement alignées sur celles de l’ensemble a eu un impact minime, voire nul, sur la précision.

Graphique montrant une variabilité plus élevée de l’erreur quadratique moyenne pour les modèles uniques à gauche par rapport à la variabilité réduite des ensembles à deux modèles à droite.
Les ensembles de modèles aboutissaient le plus souvent à une meilleure précision que n’importe lequel des modèles pris isolément.

L'amélioration de la précision des prédictions des ensembles à deux modèles a été déterminée par les types de modèles utilisés. Par exemple, la plupart des prédictions du modèle ont été améliorées dans la plus grande mesure lorsqu'elles ont été combinées à un modèle individuel hautement performant (l'un des deux modèles linéaires ou le DNN « d'optimisation consécutive »). Les prédictions pour les ensembles à deux modèles ont été moins améliorées lorsqu'elles incluaient les modèles d'apprentissage automatique, KNN et RNR, ou le modèle « d'optimisation simultanée » du réseau neuronal profond.

Les auteurs ont évalué l’exactitude de la combinaison des prévisions de rendement modélisées à l’aide de différents systèmes de pondération. Il s’agissait notamment de donner à chaque type de modèle un poids égal ou de pondérer chaque modèle de manière inversement proportionnelle à l’écart type, à la variance ou à l’erreur quadratique moyenne de ses prédictions. Parmi les schémas examinés, lorsque les huit modèles étaient utilisés dans le même ensemble, la pondération des répétitions inversement proportionnelle à la variance de chaque répétition aboutissait à l'erreur la plus faible. Ce schéma présentait une erreur inférieure de 1.6 % à celle du meilleur modèle unique.

Le meilleur ensemble et schéma de pondération pour les ensembles composés de 3 types de modèles ou plus présentait une erreur inférieure de 7 % à celle du meilleur modèle unique. Cet ensemble a été pondéré par l'inverse de l'erreur attendue de chaque modèle et était composé des deux types de modèles linéaires, le modèle « d'optimisation consécutive » du réseau neuronal profond et les modèles d'apprentissage automatique RF et SVR.

« Il est intéressant de noter que notre ensemble le plus performant comprenait deux des modèles (RF et SVR) qui se comportaient mal seuls. L'efficacité d'un ensemble vient en partie de différence dans les prévisions des modèles – l'une est peut-être trop élevée et l'autre trop basse, mais ensemble, elles sont sur la bonne voie. Dans le bon contexte, ces modèles peuvent augmenter la précision.

"Sur la base de ces résultats, où la prédiction est d'une importance primordiale, un chercheur ou un sélectionneur aurait, le plus souvent, intérêt à regrouper des modèles plutôt qu'à utiliser un modèle seul", explique Kick.

LIRE L'ARTICLE:

Daniel R Kick, Jacob D Washburn, Un ensemble de modèles combinant le meilleur prédicteur linéaire sans biais, l'apprentissage automatique et l'apprentissage profond permet de prédire le rendement du maïs plus efficacement que chaque modèle pris individuellement., in silico Plants, Volume 5, Numéro 2, 2023, diad015, https://doi.org/10.1093/insilicoplants/diad015