Alors que le changement climatique s'intensifie, les scientifiques s'efforcent de trouver les méthodes, algorithmes ou modèles les plus performants pour simuler l'impact des températures élevées et/ou de la disponibilité limitée de l'eau sur la croissance, le développement et la productivité des cultures. La complexité des interactions plante-environnement rend cela difficile, mais de nouvelles recherches ont montré que l'intégration de l'apprentissage automatique et de la modélisation des cultures peut fournir les réponses nécessaires.

Dr Ioannis Droutsas, chercheur à l'Université de Leeds, et coauteurs Des algorithmes d'apprentissage automatique (AA) intégrés à un modèle de culture basé sur les processus permettent de créer un nouveau cadre de modélisation des cultures/AA performant pour la représentation de la réponse des cultures à un large éventail d'environnements, y compris les conditions de stress..

Les auteurs ont modifié le modèle de culture basé sur les processus existant GLAM-Parti intègre des algorithmes d'apprentissage automatique pour estimer des variables qui échappent régulièrement aux capacités prédictives du modèle de culture. L'apprentissage automatique a été utilisé pour les prévisions quotidiennes de l'efficience d'utilisation du rayonnement, du taux de variation de l'indice de récolte et du stade phénologique.

Pour l'évaluation du nouveau cadre GLAM-Parti-ML, les auteurs ont utilisé un jeu de données existant pour un cultivar de blé cultivé dans une large gamme de températures, de rayonnement solaire et de conditions d'humidité atmosphérique, y compris l'exposition au stress thermique. La moitié des données a été utilisée pour former les algorithmes d'apprentissage automatique et l'autre moitié pour tester le modèle.

Le modèle a été exécuté avec les entrées météorologiques température, rayonnement solaire et déficit de pression de vapeur, les déterminants météorologiques les plus importants de la croissance du blé pour des conditions irriguées et bien fertilisées. Les rendements de biomasse et de rendement en grain, ainsi que les jours jusqu'à l'anthèse et la maturité ont été comparés aux mesures de terrain en fin de saison.

Un organigramme montrant la méthodologie d'intégration de ML dans GLAM-Parti. L'ensemble de données est divisé en traitements d'entraînement et de test. Les données sur les cultures des traitements de formation sont utilisées pour ajuster les séries chronologiques de la biomasse et du rendement, qui dérivent ensuite les variables cibles RUE et dHI/dt pour la formation des forêts aléatoires (RF) et XGBoost. Les traitements de test sont utilisés dans l'évaluation de GLAM-Parti avec RF et XGBoost respectivement.
Méthodologie d'intégration du ML dans GLAM-Parti.

L'équipe a appliqué Random Forests et Extreme Gradient Boosting. Les deux modèles ML ont montré une grande efficacité dans l'apprentissage des modèles entre les intrants et la performance des cultures (en termes d'efficacité d'utilisation du rayonnement) au cours de la saison de croissance. Cela a abouti à une bonne compétence de modèle pour la biomasse des cultures ; GLAM-Parti-ML a reproduit 98 % de la variance observée à la fois dans la biomasse et le rendement en grain et l'erreur du modèle était inférieure à 20 %. De plus, le modèle a reproduit au moins 98 % de la variance observée dans les jours jusqu'à l'anthèse et la maturité avec moins de 11 % d'erreur. Néanmoins, le début des deux stades phénologiques a été sous-estimé, prédisant ainsi l'anthèse et la maturité plus tôt qu'observé.

Quatre figures sont représentées. Les diagrammes à barres appariés comparent la biomasse observée et prévue, le rendement en grain, l'émergence à l'anthèse et l'émergence aux dates de maturité. Tous ont 12 cultivars répertoriés sur l'axe des x et une ligne verticale rouge au centre indiquant que 6 des cultivars sont utilisés pour la formation des forêts aléatoires et les 6 autres sont des traitements utilisés pour les essais sur modèle. L'axe des ordonnées de la figure A est la biomasse en tonnes par hectare de 0 à 20. La biomasse pour trois des cultivars d'entraînement et un cultivar d'essai est d'environ 5 tonnes par hectare, tandis que la valeur pour les autres cultivars est d'environ 10 tonnes par hectare. Les valeurs de prédiction d'entraînement sont surestimées et sous-estimées uniformément tandis que les valeurs de test montrent que les prédictions sont sous-estimées. L'axe des ordonnées de la figure B est le rendement en grains en tonnes par hectare de 0 à 8. La biomasse pour deux des cultivars d'entraînement et un cultivar d'essai est d'environ 1 tonne par hectare, tandis que la valeur pour les autres cultivars est d'environ 5 tonnes par hectare. Les valeurs de prédiction d'entraînement sont surestimées et sous-estimées uniformément tandis que les valeurs de test montrent que les prédictions sont sous-estimées. L'axe des y pour la figure C est l'émergence à l'anthèse de 0 à 100 jours. La date d'anthèse varie pour les cultivars d'entraînement et d'essai et varie de 50 à 100 jours. Les valeurs de prédiction d'entraînement sont égales aux valeurs observées tandis que les valeurs de test montrent que les prédictions sont sous-estimées. L'axe des ordonnées de la figure D correspond à l'émergence jusqu'à la maturité de 0 à 150 jours. La date de maturité varie pour les cultivars d'entraînement et d'essai et varie de 75 à 150 jours. Les valeurs de prédiction d'entraînement sont égales aux valeurs observées tandis que les valeurs de test montrent que les prédictions sont pour la plupart sous-estimées.
Comparaison entre les valeurs observées et simulées par GLAM-Parti pour un cultivar de blé cultivé dans une large gamme de températures, de rayonnement solaire et de conditions d'humidité atmosphérique, y compris l'exposition au stress thermique. Les lignes rouges verticales séparent les traitements utilisés pour la formation des forêts aléatoires (à gauche de la ligne rouge) et les traitements utilisés pour les tests de modèle (à droite de la ligne rouge).

Ensuite, GLAM-Parti a été comparé à son prédécesseur, GLAM, un modèle de culture basé sur les processus sans intégration d'apprentissage automatique. GLAM a été calibré avec 100% des données et GLAM-Parti avec seulement 50%. Néanmoins, GLAM-Parti-ML avait des valeurs d'erreur plus faibles pour la biomasse, le rendement et les jours jusqu'à la maturité et l'anthèse, ce qui indique que les paramétrisations d'apprentissage automatique ont amélioré le modèle bien qu'elles aient été formées sur seulement la moitié des données.

Pour évaluer plus en profondeur GLAM-Parti-ML, les auteurs ont utilisé un deuxième ensemble de données de trois cultivars de blé cultivés dans de nombreuses expériences de terrain dans six pays. Encore une fois, la moitié des données a été utilisée pour former les algorithmes d'apprentissage automatique et l'autre moitié pour tester le modèle.

Quatre figures sont représentées. Les diagrammes de dispersion comparent la biomasse observée et prédite, le rendement en grain, la levée à l'anthèse et la levée à la maturité pour le blé cultivé dans 4 pays. Les axes de la figure A sont la biomasse en tonnes par hectare de 0 à 15. La valeur R au carré est de 0.73. Les axes y de la figure B sont le rendement en grains en tonnes par hectare de 0 à 7.5. La valeur R au carré est de 0.76. Les axes de la figure C sont l'émergence à l'anthèse de 0 à 100 jours. La valeur R au carré est de 0.66. Les axes de la figure sont de l'émergence à la maturité de 0 à 120 jours. La valeur R au carré est de 0.79.
Comparaison entre les valeurs observées et simulées par GLAM-Parti pour trois cultivars de blé cultivés dans de nombreuses expériences de terrain dans six pays.

Une fois de plus, le modèle a eu d'excellentes performances. Il a reproduit 73 % de la variation de la biomasse entre les emplacements et les cultivars avec une erreur de 15 % et 76 % de la variation du rendement en grain avec une erreur de 16 %. La phénologie de la culture était plus précise pour les jours jusqu'à la maturité (erreur de 9.9 %) que pour l'anthèse (erreur de 13.2 %). Il y avait à nouveau un biais négatif dans la prédiction des deux stades phénologiques.

Droutsas conclut que « l'utilisation d'un ensemble de données d'entraînement plus important améliorerait considérablement les simulations du modèle. Cependant, peu d'ensembles de données avec les mesures requises existent.

LIRE L'ARTICLE:

Ioannis Droutsas, Andrew J Challinor, Chetan R Deva, Enli Wang, Intégration de l'apprentissage automatique dans la modélisation basée sur les processus pour améliorer la simulation des réponses complexes des cultures, in silico Plants, 2022, diac017, https://doi.org/10.1093/insilicoplants/diac017