Une nouvelle étude révèle que les grands modèles de langage comme ChatGPT présentent un biais préoccupant lorsqu'ils répondent à des questions de biologie. Les chercheurs Anja Geitmann et Amir Bidhendi ont découvert que les réponses de ChatGPT aux questions sur la biologie cellulaire et d'autres domaines de la biologie favorisaient fortement les exemples animaux tout en négligeant souvent la biologie végétale. Ce phénomène révèle une sorte de « cécité des plantes » dans le système d’IA, qui rappelle la tendance plus large de la biologie végétale à être sous-représentée dans l’enseignement et la recherche en biologie.

Les chercheurs ont posé des questions à ChatGPT sur des sujets tels que les composants cellulaires, la cytokinèse et la biologie des cellules organiques. Même si certaines réponses mentionnaient les différences entre les plantes, de nombreuses réponses ne parlaient que des cellules et des processus animaux. Ces performances variables et biaisées montrent que ces modèles d’IA ne disposent pas des diverses connaissances biologiques nécessaires pour répondre de manière fiable à ces questions.

Cela est important car des outils comme ChatGPT sont de plus en plus utilisés à des fins éducatives et de recherche. Si les systèmes propagent des idées fausses ou penchent en faveur de la biologie animale, cela pourrait avoir un impact négatif sur l’apprentissage et le progrès scientifique dans des domaines comme la biologie végétale. Les chercheurs préviennent que les experts doivent être impliqués dans l’évaluation des données de formation et des réponses des systèmes d’IA pour éviter de perpétuer les préjugés.

Tester les connaissances biologiques de ChatGPT

Dans leur étude, Geitmann et Bidhendi ont directement interrogé le modèle ChatGPT pour évaluer sa connaissance des concepts biologiques et son inclusion d'exemples végétaux. Ils ont posé des questions à ChatGPT sur des sujets tels que les composants cellulaires, la division cellulaire, la fonction des spermatozoïdes et la biologie des cellules des organes. Les auteurs ont formulé ces questions pour qu’elles soient pertinentes pour tous les organismes eucaryotes, pas seulement pour les animaux.

Après avoir reçu les réponses de ChatGPT, les chercheurs les ont analysées pour rechercher des mentions de biologie végétale et leur ont attribué des « scores de sensibilisation aux plantes ». Les résultats ont été très mitigés. Dans certains cas, comme pour expliquer les composants cellulaires, ChatGPT a mentionné des différences entre les plantes telles que les vacuoles et la pression de turgescence. Mais dans de nombreuses autres réponses, ChatGPT ne parlait que des cellules et des processus animaux, ignorant complètement la biologie végétale.

Par exemple, lorsqu’on lui a demandé comment les organes peuvent se plier et exercer des forces, ChatGPT a uniquement décrit les protéines contractiles animales comme l’actine et la myosine – sans jamais mentionner le gonflement des parois cellulaires végétales ou les changements de pression de turgescence. Cette « conscience végétale » variable et faible dans les réponses de ChatGPT révèle des lacunes dans ses connaissances biologiques.

Réponses biaisées par les animaux de ChatGPT

Les chercheurs fournissent plusieurs exemples dans lesquels les réponses de ChatGPT affichent un biais en faveur de la biologie animale :

  • À la question : « Comment la cytokinèse sépare-t-elle le volume cytoplasmique ? » ChatGPT a d'abord discuté du processus d'anneau contractile animal. Il a finalement mentionné la formation de plaques de cellules végétales, mais seulement après avoir décrit en profondeur la cytokinèse animale.
  • Dans la question « Comment les spermatozoïdes peuvent-ils atteindre l'ovule ? », ChatGPT s'est uniquement concentré sur la nage basée sur les flagelles des animaux, sans jamais mentionner les tubes polliniques des plantes, à moins d'être explicitement invité à discuter de la fertilisation des plantes.
  • À la question : « Comment les cellules peuvent-elles s’endocytoser contre la pression de turgescence ? » ChatGPT revendiqué à tort parois cellulaires végétales aider l'endocytose en résistant à la pression de turgescence. Les auteurs notent que cette « grave erreur conceptuelle » dénature la biologie des cellules végétales.
  • À la question « Comment l’organe d’un organisme vivant peut-il se plier et exercer des forces ? » ChatGPT a exclusivement discuté des protéines contractiles animales. Comme le notent les chercheurs, il a omis de mentionner la pression de turgescence ou les changements de la paroi cellulaire qui permettent les mouvements des organes végétaux.

Ces exemples démontrent le biais variable mais fréquent de ChatGPT en faveur de réponses centrées sur les animaux, même lorsque les questions pourraient s'appliquer plus largement à d'autres organismes. Les auteurs affirment que cela révèle des lacunes dans les données de formation de ChatGPT qui propagent des idées fausses problématiques.

Implications de la cécité des plantes de ChatGPT

Les chercheurs affirment que les réponses biaisées et parfois incorrectes de ChatGPT ont des implications préoccupantes :

  • Les réponses de l'IA centrées sur les animaux pourraient induire en erreur les utilisateurs non experts en quête d'informations biologiques. Des explications erronées, comme la manière dont les parois cellulaires végétales contribuent à l'endocytose, le processus d'introduction de matière dans la cellule, pourraient propager des idées fausses.
  • Ce biais reflète le caractère plus large « cécité des plantes » qui imprègne déjà l’enseignement et la recherche en biologie. Les animaux ont tendance à recevoir une attention disproportionnée, marginalisant ainsi la biologie végétale.
  • Alors que les systèmes d’IA générative comme ChatGPT sont de plus en plus adoptés à des fins éducatives et de recherche, ces biais pourraient aggraver le déséquilibre. Si l’IA propage des visions centrées sur les animaux, elle pourrait exclure davantage les perspectives de la biologie végétale.

Déjà, les manuels de biologie et les revues universitaires privilégient les exemples animaux. Si les systèmes d’IA biaisés deviennent un outil courant pour les étudiants et les chercheurs, ils pourraient exacerber la négligence de la biologie végétale et propager des informations erronées sur les concepts biologiques fondamentaux. Des réponses suffisamment diversifiées en matière d’IA sont cruciales pour une compréhension inclusive et impartiale de la biologie.

Pourquoi la diversité végétale est importante dans l'IA

Si les grands modèles de langage comme ChatGPT manquent d’exemples de biologie végétale, cela peut perpétuer des préjugés préjudiciables et diffuser des informations erronées. Des connaissances vastes et diversifiées sont essentielles pour que les systèmes d’IA soient censés constituer des sources faisant autorité en matière de biologie.

Biais de cécité des plantes quelles informations et perspectives sont partagées dans l’enseignement et la recherche en biologie. Si l’IA imite et amplifie ces préjugés, elle ne rend pas service à la diversité de la biologie. La biologie végétale offre des exemples distincts et éclairants de concepts et de processus biologiques. Négliger cela fausse la compréhension.

Les idées d'un étudiant manque quelque chose s'ils ignorent les plantes pourrait être énorme. Par exemple, les chromosomes et les rythmes circadiens ont été observés pour la première fois chez les plantes.

Recommandations pour améliorer la diversité de l'IA

Geitmann et Bidhendi formulent quelques recommandations pour améliorer la compréhension de la biologie végétale par l'IA. Suivant le principe GIGO – Garbage In, Garbage Out, ils discutent des informations qui entrent dans les modèles. Ils suggèrent que les modèles deviendront beaucoup plus utiles s'ils reçoivent du « matériel de formation approprié ». Ils écrivent également qu’il est important de gérer correctement le résultat. Ils écrivent:

Le défi est que les systèmes d’IA apprennent grâce au renforcement et à la confirmation des utilisateurs. En raison des tailles relatives des recherche biomédicale domaine par rapport à la science végétale, les réponses diverses avec des « PAScores » élevés pourraient ne pas être renforcées suffisamment fréquemment pour garantir une diversité cohérente dans les réponses. Il sera crucial de structurer la manière dont l'apprentissage par renforcement est effectué, et l'implication d'experts thématiques dans la validation du processus sera essentielle – comme le souligne un article réfléchi de van Dis et al. [2023].

Geitmann et Bidhendi 2023.

Le besoin d’une IA diversifiée et impartiale

Cette étude de Geitmann et Bidhendi souligne l'importance de l'évaluation des experts et des utilisateurs pour identifier les limites des systèmes d'IA existants. Avec un feedback consciencieux, les biais peuvent être reconnus et corrigés en élargissant la diversité des données de formation et en affinant les architectures de modèles.

Ce que le document n'explore pas, c'est la question pratique de Qui va payer pour suivre la formation nécessaire ? Les PDG des différentes sociétés d’IA auront observé que de nombreuses autres entreprises ont fait fortune en faisant travailler d’autres personnes gratuitement.

Il est difficile de ne pas s'intéresser ici aux éditeurs universitaires – même si je soulignerai que le Annals of Botany La société qui finance ce site est à but non lucratif. Les membres de l'entreprise ne perçoivent aucun salaire.

Même si une IA collaborative plus impartiale pourrait enrichir les connaissances et la compréhension biologiques collectives de l’humanité, elle nécessitera beaucoup de nettoyage et de maintenance.

LIRE L'ARTICLE
Geitmann, A. et Bidhendi, AJ (2023) «Cécité des plantes et diversité dans les modèles de langage d'IA, " Trends in Plant Science. Disponible à l'adresse: https://doi.org/10.1016/j.tplants.2023.06.016.